このページの本文へ

悟空、単語辞書を手に入れる (2/4)

2009年07月03日 12時46分更新

文●清田陽司/東京大学 情報基盤センター 図書館電子化研究部門 助教 イラスト●MOMO’S FACTORY

  • この記事をはてなブックマークに追加
本文印刷

単語の変化を扱う ~活用と品詞の話~

 世の中に存在するあらゆる単語が登録された辞書があれば、どんな文書も分かち書きできるはずです。「パソコンが持っている膨大なメモリーを使えば、世の中のあらゆる単語を全部突っ込んでしまうことくらいわけないんじゃないの?」――それでは実際にやってみましょう。「面白い」という単語をうまく抜き出せるように、単語辞書を作ってみてください。「えっ、単純に『面白い』を登録しておけばいいんじゃないの?!」――はい、それでOKです。今度は次の文から単語をうまく抜き出せるようにしてみましょう。

自然言語処理を面白くする

 「うーん、『面白く』を登録しておけば抜き出せるよね」――その通りです。それでは、いま作った単語辞書を使って検索エンジンを動かしてみましょう。下の図を見てください。「自然言語処理は面白い」という文が含まれるWebページ(サイトA、B)と、「自然言語処理を面白くする」という文が含まれるWebページ(サイトC)が検索対象となっています。


 ここで、「自然言語処理 面白い」というキーワードを検索ボックスに入力して検索してみましょう。サイトAはヒットするのですが、サイトBはヒットしません。「『面白く』というキーワードは指定していないんだから当たり前だよ」――はい、この検索結果は確かに正しいです。でも、「自然言語処理 面白い」というキーワードを入力した人の中には、サイトBも見たいと思う人もいるのではないでしょうか。

 試しに手元の国語辞書を引いてみてください。「面白い」という単語は載っていますが、「面白く」という単語は載っていませんよね。「面白く」という単語を調べたいとき、私たちはそれを頭の中で「面白い」に置き換えてから辞書を引きます。「面白く」という単語が、「面白い」という単語の変化したものであることを知っているから、「面白い」に置き換えられるのです。

 単語が場合によって変化する、つまり活用するということは、中学校国語の文法の授業で習いましたよね。「えーと、あんまり覚えていないなぁ。五段活用とか上一段活用とかだっけ?」――そうです。では、どんな単語が活用するのかは覚えてますか?「動詞とか形容詞は活用するんじゃなかったっけ?」――その通り! もうひとつ質問です。いま思い出していただいた「動詞」や「形容詞」のことを、文法の授業では何と呼んでいましたか?――「うーん、品詞だっけ?」

 品詞は、学校のクラスにたとえて考えると分かりやすいです。世の中に存在するあらゆる単語(生徒)は、「名詞」「動詞」「形容詞」「助動詞」「副詞」などのうち、いずれか1つの「クラス」に所属しています。どのクラスに所属しているかによって、単語が文章の中で果たす役割が決まるということを、中学の授業では習ったわけです。

 日本語では、クラス(品詞)のうち『動詞」「形容詞」「形容動詞」「助動詞」のみが活用し、それ以外の「名詞」「副詞」「助詞」などは活用しないと分かっています。「面白い」は形容詞なので、「面白い/面白く/面白かっ(た)/面白 けれ(ば)」などと活用します。

 さらに、クラスによってはさらにいくつかのグループに分かれています。たとえば「動詞」クラスは、「五段活用」グループや 「上一段活用」グループに分かれていて、「五段活用」グループは「勝つ/勝っ(た)/勝た(ない)/勝て(る)」などと活用します。「名詞」クラスのように活用しない品詞も、「普通名詞」「地名」「人名」などにグループ分けされているものもあります。

 「単語が場合によって変化する」という「人間の都合」を扱うには、単語辞書に「品詞」や「活用形」などの情報を含めておく必要があります。活用形「面白く」とその基本形である「面白い」がひもづけられていれば、先ほどの例にあったサイトB もきちんと検索できます。

 下に、実際に日本語の検索エンジンでも使われている「MeCab」というツールが使っている単語辞書の抜粋を示します。「面白い」という単語の活用形がすべて登録されていて、「形容詞」という品詞(クラス)に所属していること、「面白い」という基本形と対応づけられていることが分かります。文書から単語を抜き出すときに基本形を使うことで、「単語が変化する」という「人間の都合」を検索エンジンでうまく扱えるわけです。



 (次ページ、「品詞どうしの結びつき方を考慮する」に続く)

この連載の記事

一覧へ

この記事の編集者は以下の記事をオススメしています