このページの本文へ

NTT、『日本語語彙大系』CD-ROM版と文章解析プログラムを完成

1999年09月27日 00時00分更新

文● 編集部

  • この記事をはてなブックマークに追加
  • 本文印刷

日本電信電話(株)は24日、日英翻訳システムの研究成果として、大規模な日本語単語の意味の違いを体系化した意味辞書『日本語語彙大系』CD-ROM版を完成し、同辞書の体系を用いて日本語の文章を解析する形態素解析プログラム『ALTJAWS(アルトジョーズ)』を開発したと発表した。同プログラムは、大学/研究機関での研究目的に限り、無償で提供する。

コンピューターに言葉を記録させる場合、その語句がどうのような状況で使用できるかを判断するのに曖昧さが生じることがある。このような曖昧さを解消し、コンピューターによる日本語の解析精度を向上させるために、NTTコミュニケーション科学基礎研究所ではコンピューターが直接扱うことができる言語知識ベースの構築とそれを用いた日本語解析プログラムの研究を進めてきたという。

今回完成した同辞書は、'97年9月に岩波書店から出版された『日本語語彙大系(全五巻)』に、検索機能を組み込んだ、EPWING規約準拠の電子辞書。3つの体系から構成されている。“意味体系”として、日本語の一般名詞、固有名詞、用言の意味の用法をツリー構造で3000カテゴリー、最も深いレベルで12段に体系化。“ 単語体系”として、30万語の単語を意味体系によって定義。“構文体系”として、6000の用言(動詞や形容詞)に対して、主語/目的語にくる名詞を意味体系で定義し、対応する英語構文を収録。1万4000パターンの辞書を構築している。例えば“取る”という動詞に対して、“ホテルを取る”は“reserve”、“使用料を取る”は“charge”というように、目的語になりうる名詞を、意味カテゴリーを用いて表現することで、構文の意味の違いを示す。また、“動詞と助詞の組み合わせが自然かどうか”を調べることも可能。

同プログラムは、日本語の文章を入力すると、単語単位に区切り、品詞を決定し、同意味辞書の体系に基づく意味情報をコードで出力するプログラム。実用的な語彙規模で体系化した同辞書のうち、意味体系と単語体系を実装することで、固有名詞などが多く出てくる新聞記事においても、精度よく単語に分割できるという。

解析のプロセスは、 日本文の入力→形態素(単語や接辞)の検索と候補の抽出→文法的に接続可能な候補をつないで候補列の作成→単語の品詞や意味カテゴリーなどを用いて意味的な係り受けの有無のチェック→分割数が少なく、係り受け数の多い候補を最終候補に決定→形態素の単位と品詞情報と意味カテゴリーの出力。このように、単語間の接続条件や係り受けを自動的に調べて、正しいと想定される候補を抽出する。

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン