このページの本文へ

「漢字文化は危なくない」小林龍生氏、Unicodeを語る

1998年06月30日 00時00分更新

  • この記事をはてなブックマークに追加
  • 本文印刷


 6月25日、日本電子出版協会(JEPA)は、“第2回正しく美しい日本語表記セミナー”を開催した。今回は、講師として“Unicodeコンソーシアム”メンバーの(株)ジャストシステムの小林龍生氏を招いた。同氏は漢字のコード化における問題と現状についての報告を行なった。




Unicodeの歴史

 '83年、ISO(国際標準化機構)は、世界中の文字の統一コード(ISO 10646)の策定に乗り出した。当初のISO案は、16ビットの空間の中で、日本、中国、韓国の文字コードにそれぞれ異なる領域を割り当てるものであった。

 一方、'91年に、マイクロソフト、IBM、アップルコンピュータ、アドビシステムズなどの米国有力企業が“Unicodeコンソーシアム”を設立し、独自にコード規格の策定を行なった。“Unicodeコンソーシアム”は16ビットでのコード化を想定した。日中韓の漢字のうち、共通の文字を統合(CJK統合漢字)することにより、日中韓の漢字約5万字は、約2万字にまで統合された(Unicode ver.1.1)。最終的には、Unicode ver.1.1は16ビットによる文字コードとなったが、ISOは、ISO/IEC 10646として、16ビットを超える文字コードの可能性を考慮し、32ビットの構造も持つこととなった。

Unicodeの現状

 この統合漢字が、後に“米企業による漢字文化の侵略”との批判を受けるもととなった。小林氏は「16ビットで扱える文字数は6万5535文字だが、文字数の少なさ自体は'96年に策定された“Unicode2.0”ではこの制限を解消し、約100万文字まで拡張できる機構(サロゲートペア)が用意されている。また、ISO/IEC 10646としてもBMP(Basic MultiLingual Plane)への約6000文字の追加をはじめとして、最終的には約9万文字を上限とする追加が議論されている」と語り、文字数の少なさからUnicode、ISO/IEC10646批判を行なうのは認識不足との考えを示した。

 同氏はまた、約100万文字の拡張が実現した仕組みについて解説した。Unicode ver.1.1では、BMP以外の面を使用する枠組みは用意されていなかった。そこで、Unicode ver.2.0では、サロゲートペアと呼ばれる機構を用意した。これは、ISO/IEC 10646では、'96年に修正案として成立したUTF(UCS Transfer Format)16というエンコーディング方式に相当するものである。これはふたつでひとつのコードポイントを指示する。つまり、32ビットでひとつの文字を表わす。サロゲートは上位1024×下位1024=104万8576あり、これにより約100万文字のコードエリアが拡張されたという。

 小林氏はまた、現在のUnicodeに対する反発を生んだ理由として、コンソーシアムの売り込み方に問題があったという。「完璧なコードなどありえないのに、完璧だ、と売り込んでしまったために、一部の感情的な反発を招いてしまった。コンソーシアムのマーケティングにも責任はある」と語った。(報道局 白神貴司)

http://www.jepa.or.jp/index.html

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン