悟空、秘剣「転置インデックス」を手に入れる (3/3)

2008年12月08日　08時00分更新

文●清田陽司／東京大学情報基盤センター図書館電子化研究部門助教

ツイートする

検索エンジンを作るまでの高い壁　
～キーワードの切り出しとキーワードの高速検索～

　パソコンが文書を検索する仕組みのイメージが少しずつつかめてきたでしょうか。「さっぱり分からないんだけど……」という方も多いことでしょう。メモリーにキーワードや文書の情報を表現する仕組みはちょっと複雑なので、イメージできるまでには慣れが必要です。

　でも、パソコンが文書検索についてやっている仕事は、本質的には人間が索引を作ったり引いたりするときにやっていることと同じです。「すべての情報をメモリーに載せて扱う必要がある」という「コンピューターの都合」に合わせるためにどうしても避けられない約束事が割り込んできているのです。転置インデックスの本質である「文書ごとにまとめた表をキーワードごとにまとめた表に変換すること」が理解できていれば、まずはそれで十分です。

　さて、転置インデックスの仕組みを使って実際に文書検索システムを作るには、どうしても乗り越えなければならない2枚の厚い壁があります。

1枚目の壁:
文書の文字列からどうやってキーワードを切り出すのか？

　「はじめに.txt」「第1章.txt」……に含まれるキーワードを切り出す仕組みはいったいどうなっているのか、疑問に思われた方もいることでしょう。じつは「キーワードの切り出し」は昔から多くの研究者を悩ませてきた深遠なテーマなのです。ましてや、コンピューターに「キーワードの切り出し」をさせるのは無謀といってもいいかもしれません!?

2枚目の壁:
「キーワードの列」からどうやってお目当てのキーワードを素早く探し出すのか？

　高速な文書検索システムを作るには、利用者から入力されたキーワードの番号を素早く見つける仕組みが必要です。実はこれがけっこう難しいのです。メモリー表現の先頭から探していく方法では、キーワードの数が増えるにしたがって時間が多くかかります。メモリー表現では、番号からキーワードを一瞬で調べられますが、その逆は不可能です。世界中のWeb文書にはおそらく何千万種類ものキーワードが使われています。いくら高速なパソコンでも、何千万種類ものキーワードの配列からお目当てのキーワードを探すにはそれなりの時間がかかってしまいます。

　次回とその次の回は、この2枚の壁を乗り越えるためのとっておきの道具「文字N-gram方式」「二分探索法」「ハッシュ表」を紹介します。

前へ 1 2 3 次へ

この連載の記事

一覧へ

WebPro

悟空、単語辞書を手に入れる

検索エンジンを作るには、コンピュータに単語の区切りを正しく「解釈」させる必要がある。どのような方法があるのだろうか。

WebPro

悟空、秘技「分かち書き」を習う

検索エンジンは人間が使うもの。パソコンだけではなく、人間の都合も考えて検索エンジンを作るにはどうしたらよいのだろうか。

WebPro

悟空、キーワードを瞬時に見つける

大量のキーワードの列から目当てのキーワードを探し出す「二分探索法」の欠点を補うにはどうしたらよいのでしょうか？　今回は、偏ったデータを均等に分割し、すばやく検索できるようにする「ハッシュ表」を紹介します。

WebPro

悟空、キーワードを電光石火で切り出す

転置インデックスの仕組みを使って検索システムを作るには、文書の文字列から「キーワード」を切り出さなくてはなりません。そもそも、コンピュータにとっての「キーワード」とは何でしょうか？　今回はそんな疑問から考えてみましょう。

WebPro

悟空、秘剣「転置インデックス」を手に入れる

Googleはなぜ、あれほどすばやく目的の情報を探せるのでしょうか？　ヒントは、私たちが本で調べ物をするときに使っている「索引」にありました。今回は、パソコンが索引を使って文書を検索する仕組みに迫ります。

WebPro

悟空、村の中で文書を探す

「1兆ページ以上」といわれる世界中の膨大なWebページの中から、目的の情報を的確に見つけ出すGoogleの検索サービス。日々、当たり前のように利用しているGoogleの検索エンジンがどのような仕組みで動いているか、ご存知ですか？　本連載では東京大学情報基盤センター図書館電子化研究部門助教の清田陽司氏が解説します。

この記事の編集者は以下の記事をオススメしています

PROGRAMMING

WebPro

悟空、村の中で文書を探す

TREND

WebPro

Google徹底解剖

世界中の優秀な技術開発者を大量に採用し、貪欲にWebの新たな地平を切り開いていくGoogle。ひとたび技術開発者向けイベントを開催すれば、全国津々浦々からGoogleの最新テクノロジーを肌で感じようと大勢の技術者が集まり、その会場は大きな熱気に包まれる。いったいGoogleの何がそこまで人を惹きつけるのか。その源泉を探る。