悟空、単語辞書を手に入れる (1/4)

2009年07月03日　12時46分更新

文●清田陽司／東京大学情報基盤センター図書館電子化研究部門助教イラスト●MOMO’S FACTORY

ツイートする

単語辞書を使う

　前回（関連記事）説明した2つの分かち書きアルゴリズムは、「スペース（空白文字）」「文字の種類」という、文字列の「字面」のみに頼ったものでした。一応、「人間の都合」を反映してはいるのですが、まだまだ不十分です。

　「単語」という「意味のまとまり」の根拠が何だったのか、もう一度思い出してみましょう。そう、「みんなの合意」という、あやふやな根拠でしたね。偉大な先人たちは、ことばについての「みんなの合意」を明文化するために、とっておきの道具「辞書」を発明しました。いろいろな種類の辞書を使えば、世の中にどんな単語が存在するのか、私たちはすぐに調べられます。

　辞書も文書の一種なので、当然パソコンに格納できます。たとえば、「自然言語処理」「面白い」という単語が、あらかじめ辞書としてパソコンに与えられているとしましょう。「自然言語処理は面白い」という文から、辞書を使って単語を抜き出すアルゴリズムを考えてみてください。以下に1つの例を示します。

　辞書に含まれる単語をあらかじめすべてハッシュ表（関連記事＝第4回）に格納しておきます。アルゴリズムは、文の先頭の文字「自」をスタート地点として、「自」「自然」「自然言」「自然言語」「自然言語処」「自然言語処理」……「自然言語処理は面白い」という文字列を順番に取り出し、それぞれの文字列がハッシュ表の中に存在するかをすべて調べます。その結果、「自然言語処理」がハッシュ表の中に見つかります。アルゴリズムは、見つかった単語「自然言語処理」を単語として採用し、次のスタート地点を直後の「は」にしてふたたび同じ処理を繰り返していきます。最終的に、「自然言語処理」「面白い」を単語として切り出せました。

前へ 1 2 3 4 次へ

この連載の記事

一覧へ

WebPro

悟空、単語辞書を手に入れる

検索エンジンを作るには、コンピュータに単語の区切りを正しく「解釈」させる必要がある。どのような方法があるのだろうか。

WebPro

悟空、秘技「分かち書き」を習う

検索エンジンは人間が使うもの。パソコンだけではなく、人間の都合も考えて検索エンジンを作るにはどうしたらよいのだろうか。

WebPro

悟空、キーワードを瞬時に見つける

大量のキーワードの列から目当てのキーワードを探し出す「二分探索法」の欠点を補うにはどうしたらよいのでしょうか？　今回は、偏ったデータを均等に分割し、すばやく検索できるようにする「ハッシュ表」を紹介します。

WebPro

悟空、キーワードを電光石火で切り出す

転置インデックスの仕組みを使って検索システムを作るには、文書の文字列から「キーワード」を切り出さなくてはなりません。そもそも、コンピュータにとっての「キーワード」とは何でしょうか？　今回はそんな疑問から考えてみましょう。

WebPro

悟空、秘剣「転置インデックス」を手に入れる

Googleはなぜ、あれほどすばやく目的の情報を探せるのでしょうか？　ヒントは、私たちが本で調べ物をするときに使っている「索引」にありました。今回は、パソコンが索引を使って文書を検索する仕組みに迫ります。

WebPro

悟空、村の中で文書を探す

「1兆ページ以上」といわれる世界中の膨大なWebページの中から、目的の情報を的確に見つけ出すGoogleの検索サービス。日々、当たり前のように利用しているGoogleの検索エンジンがどのような仕組みで動いているか、ご存知ですか？　本連載では東京大学情報基盤センター図書館電子化研究部門助教の清田陽司氏が解説します。