「漢字文化は危なくない」小林龍生氏、Unicodeを語る

1998年06月30日 00時00分更新

　6月25日、日本電子出版協会（JEPA）は、“第2回正しく美しい日本語表記セミナー”を開催した。今回は、講師として“Unicodeコンソーシアム”メンバーの（株）ジャストシステムの小林龍生氏を招いた。同氏は漢字のコード化における問題と現状についての報告を行なった。

Unicodeの歴史

　'83年、ISO（国際標準化機構）は、世界中の文字の統一コード（ISO 10646）の策定に乗り出した。当初のISO案は、16ビットの空間の中で、日本、中国、韓国の文字コードにそれぞれ異なる領域を割り当てるものであった。

　一方、'91年に、マイクロソフト、IBM、アップルコンピュータ、アドビシステムズなどの米国有力企業が“Unicodeコンソーシアム”を設立し、独自にコード規格の策定を行なった。“Unicodeコンソーシアム”は16ビットでのコード化を想定した。日中韓の漢字のうち、共通の文字を統合(CJK統合漢字）することにより、日中韓の漢字約5万字は、約2万字にまで統合された（Unicode ver.1.1）。最終的には、Unicode ver.1.1は16ビットによる文字コードとなったが、ISOは、ISO/IEC 10646として、16ビットを超える文字コードの可能性を考慮し、32ビットの構造も持つこととなった。

Unicodeの現状

　この統合漢字が、後に“米企業による漢字文化の侵略”との批判を受けるもととなった。小林氏は「16ビットで扱える文字数は6万5535文字だが、文字数の少なさ自体は'96年に策定された“Unicode2.0”ではこの制限を解消し、約100万文字まで拡張できる機構（サロゲートペア）が用意されている。また、ISO/IEC 10646としてもBMP（Basic MultiLingual Plane）への約6000文字の追加をはじめとして、最終的には約9万文字を上限とする追加が議論されている」と語り、文字数の少なさからUnicode、ISO/IEC10646批判を行なうのは認識不足との考えを示した。

　同氏はまた、約100万文字の拡張が実現した仕組みについて解説した。Unicode ver.1.1では、BMP以外の面を使用する枠組みは用意されていなかった。そこで、Unicode ver.2.0では、サロゲートペアと呼ばれる機構を用意した。これは、ISO/IEC 10646では、'96年に修正案として成立したUTF（UCS Transfer Format）16というエンコーディング方式に相当するものである。これはふたつでひとつのコードポイントを指示する。つまり、32ビットでひとつの文字を表わす。サロゲートは上位1024×下位1024=104万8576あり、これにより約100万文字のコードエリアが拡張されたという。

　小林氏はまた、現在のUnicodeに対する反発を生んだ理由として、コンソーシアムの売り込み方に問題があったという。「完璧なコードなどありえないのに、完璧だ、と売り込んでしまったために、一部の感情的な反発を招いてしまった。コンソーシアムのマーケティングにも責任はある」と語った。（報道局　白神貴司）

http://www.jepa.or.jp/index.html

ツイートする

カテゴリートップへ

ASCII倶楽部