このページの本文へ

アップルコンピュータ、Mac OS 8.5の日本語処理に関する説明会を開催

1998年11月25日 00時00分更新

文● 千葉英寿、報道局 清水久美子

  • この記事をはてなブックマークに追加
  • 本文印刷

『Sherlock』の謎はダルマにあり?

 アップルコンピュータ(株)は、24日、Mac OS 8.5の日本語処理に関するプレス向け説明会を同社セミナールームで開催した。本説明会は、2回に渡って行われるもの。第1回目となる今回は、発売が開始されて1カ月を経過したMac OS 8.5でもっとも注目されている、検索機能『Sherlock』をはじめとする日本語検索機能の中核技術“言語解析アーキテクチャ(コードネーム:ダルマ)”に関する話題を中心に進められた。

講師の木田泰夫氏。同社において日本語環境開発のほか、UnicodeやJavaの日本語解析部分も担当した
講師の木田泰夫氏。同社において日本語環境開発のほか、UnicodeやJavaの日本語解析部分も担当した



 Mac OS 8.5から標準で搭載された検索機能『Sherlock』では、単語の検索だけでなく、内容検索ができることが最大の特徴となっている。その仕組みは、まず『V-Twin』と呼ばれるベクタスペースモデルを利用して、検索を行なうテキストを単語レベルまで分解。次に、その文書に「どういう単語」が「どれだけ含まれる」かを調べることで検索実行するというものだ。『V-Twin』とは、それぞれのトークンを空間の1次元に見立て、文書を多次元のベクトル(想像しにくいが、数学的にはなりたつモデル)として表すベクタスペースモデルのことだ。

編集部注:世の中に言葉が「時」と「金」と「暇」の3語しかないと仮に仮定し、これをそれぞれX、Y、Zの3軸に対応させるとする。すべての文書を、「時」と「金」と「暇」が文書中に何回か登場するかによって、X、Y、Zの3次元空間に配置することができる。世の中には何千、何万という単語があるので、実際には何千次元、何万次元空間に配置することになる。

 テキストの単語への分解には、言語ごとに開発された“トークナイザ”(日本語では“日本語トークナイザ”)を用いる。分解した単語は『V-Twin』によってそれぞれベクトルとして表現される。文書の類似度をベクトル間の距離として定義することで、検索が行なわれるのだ。

編集部注:前述した、3語しか言葉がない世界の場合、文書の類似度は、3次元空間中での、各文書の配置座標間の距離で表わされる。

“言語解析アーキテクチャー”が実現した“日本語を知っているOS”

 例えば「明日はいろは坂周辺に」という文章を解析する場合、「明日」、「は」、「いろは坂」、「周辺」、「に」という形で形態素解析がなされる。形態素解析とは、文書について、意味をなす最小の単位に分けること。これが単語として解釈され、言語処理のもっとも基礎的なステップになるという。

 木田氏は、「こういった内容検索は、“言語解析アーキテクチャー”によって実現しています。Mac OS 8.5で使用されている辞書は、開発に5年以上の歳月を費やしてようやく完成にこぎ着けたもの。ここまで時間がかかった理由は、幅広い応用範囲を目指したからです。従来は、OS上に専用辞書を置き、それぞれに『かな漢字変換エンジン』や『テキスト読み上げのための形態素解析エンジン』を搭載していました。しかし、これではほかの機能への応用がきかないばかりか、無駄なデータ量で負荷が大きくなってしまいます。この対処方法として、日本語テキスト処理の基礎をOS自体に組み込む方法が取られました。だからMac OS 8.5は、最初から“日本語を知っているOS”として、今後の拡張に期待できるのです」とした。





従来のエンジン体系 Mac OS 8.5での言語解析アーキテクチャー


SDK配布もまもなく開始

 後半にはトークセッションも開かれた。「ユーザーによって辞書を拡張できますか」という質問に対して木田氏は、次のように答えている。「例えば、“コントロールパネル”が索引作成時には、索引語が“コント”、“ロール”、“パネル”で、ユーザー辞書に“コントロールパネル”と登録して検索するとトークナイズ処理がうまくいきません。だからといってユーザー辞書に単語登録する際に索引を作り直すわけにはいかないのです。そのためMac OS 8.5日本語版でのSherlockはユーザー辞書の内容は使っていません」

 この“言語解析アーキテクチャー”の『SDK(Software Development Kit=デベロッパー向け開発キット)』が、まもなく配布開始される。配布方法は、同社FTPサイトでの公開と12月に配布予定の『SDK』CD-ROMへの掲載の2種類。これらの情報は、同社ホームページにおいて実際に開発に携わるエンジニアからの情報を載せた“Engineer DIRECT”を開設して掲載する。各アプリケーションに対応した“言語解析アーキテクチャー”の動向が披露されるということだ。

 なお、12月上旬に行われる第2回には、フォント関連の話題がテーマとして取り上げられる予定。

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン