悟空、キーワードを瞬時に見つける (4/4)

2008年12月26日　08時00分更新

文●清田陽司／東京大学情報基盤センター図書館電子化研究部門助教

ツイートする

まだまだ問題が！！

　転置インデックスと文字N-gram方式を使った文書検索システムを、2枚の厚い壁を乗り越えて実現するための仕組みをここまで説明してきました。Web全体の文書をどうやって1台のパソコンに格納するかという問題はありますが、原理的には、Web検索エンジンを1台のパソコンで動かすことも不可能ではありません。しかし、Googleと同じように「本当に使える」検索エンジンを作るにはまだまだ乗り越えるべき壁があります。ひとつずつ見ていきましょう。

検索結果にゴミが混ざってしまう

　仮にN-gram方式の検索エンジンを使って、「京都」というキーワードでWeb検索したとしましょう。「京都のおすすめホテル」「京都市の観光名所」などのWebページが見つかります。しかし、なぜか「東京都知事選挙」というWebページまでヒットしてしまいました。京都のことを調べたいのになぜ東京なのでしょうか？

　実は、検索結果に検索要求とは関係のない文書まで混じってしまうのが、文字N-gram方式の重大な欠点なのです。「東京都知事選挙」に文字2-gram方式を適用すると、「東京」「京都」「都知」「知事」「事選」「選挙」というキーワードが抽出されます。「京都」というよけいな「キーワード」がゴミの問題を引き起こしてしまいました。

Nを大きくすると探せない文書が出てしまう

　「ゴミが混ざるのは2文字という短い文字列で切り出しているからじゃない？　たとえば3文字にすれば『東京都知事選挙』から『京都』が切り出されるなんてことは防げるよね」―――そうすると、こんどは「京都」で探すことが不可能になってしまいますよ。文字N-gram方式は、Nを大きくすればゴミを減らすことができる代わりに、検索漏れもたくさんでてきてしまいます。

転置インデックスが巨大になってしまう

　「検索ゴミ問題」とも関係しますが、文字N-gram方式は人間にとって意味のない文字列も区別せずにじゃんじゃんキーワードとして切り出すため、当然転置インデックスも大きくなってしまいます。

転置インデックスの作成に時間がかかる

　転置インデックスを使った文書検索システムは、検索はほぼ一瞬でできるのですが、文書全体からキーワードを切り出したりハッシュ表を作ったりするのに、文書の量に比例した時間がかかります。転置インデックスを作っている間は検索ができない、なんてことになったら困りますよね。本連載では詳しく述べませんが、この問題に対処するには、たくさんのパソコンを並列に動かして転置インデックスを作るとか、転置インデックス作成専用パソコンと検索専用パソコンを別々にもうける、といった工夫が不可欠です。

　転置インデックスの作成に時間がかかる問題はさておき、文字N-gram方式には重大な欠点があることがお分かりいただけたかと思います。この問題のことを、「京都・東京都問題」と呼ぶことにしましょう。次回は、この欠点を克服するための方法「分かち書き」に話を進めます。

■参考サイト

前へ 1 2 3 4 次へ

この連載の記事

一覧へ

WebPro

悟空、単語辞書を手に入れる

検索エンジンを作るには、コンピュータに単語の区切りを正しく「解釈」させる必要がある。どのような方法があるのだろうか。

WebPro

悟空、秘技「分かち書き」を習う

検索エンジンは人間が使うもの。パソコンだけではなく、人間の都合も考えて検索エンジンを作るにはどうしたらよいのだろうか。

WebPro

悟空、キーワードを瞬時に見つける

大量のキーワードの列から目当てのキーワードを探し出す「二分探索法」の欠点を補うにはどうしたらよいのでしょうか？　今回は、偏ったデータを均等に分割し、すばやく検索できるようにする「ハッシュ表」を紹介します。

WebPro

悟空、キーワードを電光石火で切り出す

転置インデックスの仕組みを使って検索システムを作るには、文書の文字列から「キーワード」を切り出さなくてはなりません。そもそも、コンピュータにとっての「キーワード」とは何でしょうか？　今回はそんな疑問から考えてみましょう。

WebPro

悟空、秘剣「転置インデックス」を手に入れる

Googleはなぜ、あれほどすばやく目的の情報を探せるのでしょうか？　ヒントは、私たちが本で調べ物をするときに使っている「索引」にありました。今回は、パソコンが索引を使って文書を検索する仕組みに迫ります。

WebPro

悟空、村の中で文書を探す

「1兆ページ以上」といわれる世界中の膨大なWebページの中から、目的の情報を的確に見つけ出すGoogleの検索サービス。日々、当たり前のように利用しているGoogleの検索エンジンがどのような仕組みで動いているか、ご存知ですか？　本連載では東京大学情報基盤センター図書館電子化研究部門助教の清田陽司氏が解説します。

この記事の編集者は以下の記事をオススメしています

PROGRAMMING

WebPro

Googleはなぜ的確に探せるのか？（目次）

PROGRAMMING

WebPro

悟空、村の中で文書を探す

TREND

WebPro

Google徹底解剖

世界中の優秀な技術開発者を大量に採用し、貪欲にWebの新たな地平を切り開いていくGoogle。ひとたび技術開発者向けイベントを開催すれば、全国津々浦々からGoogleの最新テクノロジーを肌で感じようと大勢の技術者が集まり、その会場は大きな熱気に包まれる。いったいGoogleの何がそこまで人を惹きつけるのか。その源泉を探る。