このページの本文へ

悟空、単語辞書を手に入れる (3/4)

2009年07月03日 12時46分更新

文●清田陽司/東京大学 情報基盤センター 図書館電子化研究部門 助教 イラスト●MOMO’S FACTORY

  • この記事をはてなブックマークに追加
本文印刷

品詞どうしの結びつき方を考慮する

 単語という「人間の都合」をきちんと扱おうとすれば、単語辞書という「道具」を使うのがベストだということが分かりました。「ちょっと待ってよ。『京都・東京都問題』は単語辞書で本当に解決するの? 単語辞書には『東』と『京都』も入っているから、『東京|都』だけじゃなく『東|京都』という単語の切り方も可能じゃない?」――実は、単語辞書だけだと『京都・東京都問題』は解決しません。なぜなら、もうひとつ大事な「人間の都合」を考慮に入れていないからです。それはいったい何でしょうか?

 ことばには「記号表現、すなわち単語どうしが結びつくことで新しい意味が生まれる」という性質があることを思い出してください。古代の言語学者たちは、単語どうしがでたらめに結びついているわけではなく、一般的な法則が存在することを発見しました。

 たとえば、日本語の助詞のうち、「格助詞」と呼ばれるグループ(が、を、に、で、……)は、ふつう、名詞の後にくっついて使われます。格助詞が動詞にくっついて使われたりすることは通常はあり得ません。英語の文には第1文型(主語+動詞)、第2文型(主語+動詞+補語)などの文型があると授業で習ったことを覚えている人も多いでしょう。もうひとつ大事な「人間の都合」とは、品詞どうしの結びつき方のことなのです。

 品詞どうしの結びつき方をパソコンのメモリー上に表現するにはどうしたらいいのでしょうか? すぐに思いつくのは、品詞Xと品詞Yが結びつくか結びつかないかを示す表を作ってしまうことです。


 この表をメモリー上にのせることによって、たとえば「花がきれいだったよね」「花がますますきれいになった」という文を以下のように正しく分かち書きできます。


 それでは、「東京都」を正しく分かち書きするには、どんな表を作ればいいのでしょうか? 「『東京』と『都』の結びつきは○、『東』と『京都』の結びつきは×になる表を作ればいいよね」――下の図を見てください。「東京」「京都」が「地名」、「東」が「一般名詞」、「都」が「接尾辞」のグループにそれぞれ分けられていて、3つのグループの間の結びつきが表現されています。


 この図を使うことで、「東(一般名詞)|京都(地名)」という結びつきは不可能であることが分かるので、「東京|都」にきちんと分かち書きできるようになります。


「西日・西日本問題」の出現?!

 「めでたしめでたし。これで『京都・東京都問題』もやっと解決だよね」――本当でしょうか? 試しに、「西日本」を先ほどの図を使って分かち書きしてみてください。「あれ? 『西日|本』に分かれちゃうよ?!」――「西日本」は 日本の西部を指すことばなので、できれば「西|日本」に分かち書きしてほしくありませんか? しかし、先の図では「一般名詞」+「地名」という結びつきは不可能だと決めてしまっているので、「西(一般名詞)|日本(地名)」という分け方はできなくなってしまいました。今度は「西日・西日本問題」の出現 です。いったい、この矛盾をどうやって解決したらよいでしょうか?

 「西日・西日本問題」が発生した原因は、大きく分けて2つあります。


原因1: 品詞どうしの結びつきを「○」か「×」の2通りで表していること

 品詞どうしの結びつきを「○」か「×」に分類することは、結びつきの可能性を 「100%」と「0%」の2種類に分類してしまうことになります。つまり「西|日本」のような「一般名詞」+「地名」の結びつきの可能性が0%になってしまうのです。しかし現実には、「一般名詞」+「地名」の結びつきは、「東京|都」のような「地名」+「接尾辞」の結びつきほどではないにしても、そこそこ使われています。

 したがって「100%」「0%」だけではなく、「70%」「40%」などの中間的な可能性を使うことにすれば、「結びつきの強弱関係」を表せるようになります。このように可能性を表す「100%」「70%」「40%」「0%」などの数字のことを「確率」と呼んでいます。



原因2: 単語の「使われやすさ」を考慮していないこと

 世の中に存在する単語の中には、頻繁に使われる単語もあれば、めったに使われない単語もあります。「日本」と「西日」という2つの単語を考えてみましょう。「日本」という単語は、新聞やインターネットなどあらゆる場所でたくさん使われています。いっぽう「西日」は、「マンションの西日対策」など、限られた場所でしか使われません。

 Googleで検索したところ、「日本」は1000 万件以上、「西日」は80万件以下でした。もし単語の使われやすさを数値(確率)で表現できれば、「西日|本」よりも「西|日本」の方が使われやすいと判断できるはずです。


 (次ページ、「秘密兵器『最短経路探索アルゴリズム』の登場」に続く)

この連載の記事

一覧へ

この記事の編集者は以下の記事をオススメしています