悟空、キーワードを瞬時に見つける (2/4)

2008年12月26日　08時00分更新

文●清田陽司／東京大学情報基盤センター図書館電子化研究部門助教

ツイートする

　次に、アルゴリズムZによって得られたハッシュインデックスを使ってキーワード列をメモリーに格納する様子を図に示します。

　メモリーの「ハッシュ表エリア」には、ハッシュインデックスの種類数、つまり「ハッシュの箱」と同じ数（英語のアルファベットならば26個）の領域が用意してあって、先ほど例に出した対応表と同じ番号が振られています。

　それぞれの領域にはメモリーの番地（アドレス）が書かれていて、その番地は「ハッシュレコード」と呼ばれる別の場所を指しています。それぞれのハッシュレコードには、「キーワードが保存されている番地」「キーワード番号」「次のハッシュレコードの番地」が保存されています。

　「次のハッシュレコードの番地」は1つの「ハッシュの箱」に2つ以上のキーワードを格納するために必要です。2つめ以降のキーワードに対応するハッシュレコードは、「ハッシュ表エリア」からぶら下がっていく形で保存されていきます。それぞれの「箱」の末尾にあたるハッシュレコードでは、「次のハッシュレコードの番地」に特別な数値が入っていて、これ以上先には進まなくてよいことが分かるようになっています。

　それでは、上の図のハッシュ表を使って「ascii」のキーワード番号を求めてみましょう。「ascii」のアルゴリズムZによるハッシュインデックスは、先の図で示した通り「u」です。図左の対応表で「u」は20番であることが分かるので、ハッシュ表エリアの20番を参照し、最初のキーワードにあたる2001番地のハッシュレコードを参照します。3001番地のハッシュレコードに入っているキーワード「abandon」と探している「ascii」は異なっているので、このハッシュレコードはパスして、「次のハッシュレコードの番地」つまり2007番地のハッシュレコードを次に参照します。

　こうして2013番地にたどり着くと、3013番地のハッシュレコードに入っているキーワード「ascii」は、探しているキーワードと一致します。「ascii」のキーワード番号は203であることが分かりました。おめでとうございます！　ずっと短い処理で、キーワードから番号を取り出せました！　ちなみに、もしハッシュ表エリア、または「次のハッシュレコード番地」に特別な数値が入っていれば、探しているキーワードは存在しないことが分かります。

　ハッシュ表の仕組みをここまで読み進めてきていかがでしたか？　摩訶不思議な仕組みですが、人間には難しい「偏ったデータを均等に区分けして素早く探す」という仕事を、パソコンは易々とこなしてしまうのです。名刺を区分けしたり探したりするのにいちいち名前からハッシュインデックスを計算するなんてこと、人間にはちょっと真似できないですよね。「なぜ偏ったデータを均等に区分けできるのか」をきちんと理解するのは難しいのですが、ここでは「賢いアルゴリズムの凄さ」をまずは感じとってみてください。

前へ 1 2 3 4 次へ

この連載の記事

一覧へ

WebPro

悟空、単語辞書を手に入れる

検索エンジンを作るには、コンピュータに単語の区切りを正しく「解釈」させる必要がある。どのような方法があるのだろうか。

WebPro

悟空、秘技「分かち書き」を習う

検索エンジンは人間が使うもの。パソコンだけではなく、人間の都合も考えて検索エンジンを作るにはどうしたらよいのだろうか。

WebPro

悟空、キーワードを瞬時に見つける

大量のキーワードの列から目当てのキーワードを探し出す「二分探索法」の欠点を補うにはどうしたらよいのでしょうか？　今回は、偏ったデータを均等に分割し、すばやく検索できるようにする「ハッシュ表」を紹介します。

WebPro

悟空、キーワードを電光石火で切り出す

転置インデックスの仕組みを使って検索システムを作るには、文書の文字列から「キーワード」を切り出さなくてはなりません。そもそも、コンピュータにとっての「キーワード」とは何でしょうか？　今回はそんな疑問から考えてみましょう。

WebPro

悟空、秘剣「転置インデックス」を手に入れる

Googleはなぜ、あれほどすばやく目的の情報を探せるのでしょうか？　ヒントは、私たちが本で調べ物をするときに使っている「索引」にありました。今回は、パソコンが索引を使って文書を検索する仕組みに迫ります。

WebPro

悟空、村の中で文書を探す

「1兆ページ以上」といわれる世界中の膨大なWebページの中から、目的の情報を的確に見つけ出すGoogleの検索サービス。日々、当たり前のように利用しているGoogleの検索エンジンがどのような仕組みで動いているか、ご存知ですか？　本連載では東京大学情報基盤センター図書館電子化研究部門助教の清田陽司氏が解説します。

この記事の編集者は以下の記事をオススメしています

PROGRAMMING

WebPro

Googleはなぜ的確に探せるのか？（目次）

PROGRAMMING

WebPro

悟空、村の中で文書を探す

TREND

WebPro

Google徹底解剖

世界中の優秀な技術開発者を大量に採用し、貪欲にWebの新たな地平を切り開いていくGoogle。ひとたび技術開発者向けイベントを開催すれば、全国津々浦々からGoogleの最新テクノロジーを肌で感じようと大勢の技術者が集まり、その会場は大きな熱気に包まれる。いったいGoogleの何がそこまで人を惹きつけるのか。その源泉を探る。