悟空、キーワードを瞬時に見つける (3/4)

2008年12月26日　08時00分更新

文●清田陽司／東京大学情報基盤センター図書館電子化研究部門助教

ツイートする

アルゴリズムZを工夫する

　アルゴリズムZにはまだまだ工夫の余地があります。

「1つの箱に入っているデータの数が多すぎるので、箱の数を増やしたい」

　たとえば英単語70000語をハッシュ表に格納してしまうと、1箱あたり平均2700個程度のキーワードが入ってしまいます。これでは検索時間がかかりすぎてしまうので、箱の数（つまりハッシュインデックスの数）を増やしてみましょう。下の図のように、アルゴリズムZを1歩手前で止めて、ハッシュインデックスを2文字で得るようにします。

　たとえば、「ascii」のハッシュインデックスは「wc」で、対応するハッシュエリア番号は「26×22＋2＝574」となります。この方法だと、箱の数は26×26＝676個、1箱あたりのキーワード数は100個程度になり、ずいぶん高速化されます。さらにハッシュインデックスを3文字、4文字と増やしていけばさらに高速化できますが、その代わり多くのメモリーを使ってしまいます。

　アルゴリズムの多くがあてはまる原則として、計算時間とメモリーの使用量はあちらを立てればこちらが立たずの関係にある、というのがあります。計算時間を減らそうとするとメモリーの使用量が増えてしまうし、逆にメモリーの使用量を減らそうとすると計算時間が増えてしまうという関係です。パソコンを新しく買うときは、この原則をちょっと思い出してみてください。メモリーの量をケチってしまうと、長い処理時間を我慢するはめになることもありますから……。もちろんこの原則があてはまらない例外もあることをお忘れなく。

「長いキーワードだと、ハッシュインデックスを計算するのにけっこう時間がかかってしまいそうだけど」

　実は、ハッシュインデックスの計算にかかる時間についてアルゴリズムZはあまり優れていません。下の図のグラフの黒線に、キーワードの文字列長とアルゴリズムZで引き算が行なわれる回数の関係を示しています。

　キーワードが長くなればなるほど、引き算の回数は加速度的に増えてしまうことが分かります（高校数学の言葉を借りれば、引き算の回数は文字列長Lの2乗、つまりL²に比例します）。そこで、アルゴリズムZに改良を加えて、アルゴリズムZ'を作ってみました。

　アルゴリズムZは「長さNの文字列から長さN-1の文字列を作り出す操作を繰り返す」のに対し、アルゴリズムZ'は「長さNの文字列から長さN/2(端数切り上げ)の文字列を作り出す操作を繰り返す」という違いがあります。図のグラフの色線に、キーワードの文字列長とアルゴリズムZ'で引き算が行われる回数の関係を示しています。アルゴリズムZと比べると、ずいぶん増え方が緩やかですよね（高校数学の言葉を借りれば、引き算の回数はL×log(L)に比例します）。

　このように、アルゴリズムを考える上で、「データの大きさと計算時間の関係を考える」ことはとても重要です。全く同じ処理をするにも、上手いアルゴリズムと下手なアルゴリズムでは処理時間に雲泥の差が出ます。Googleを作っている優秀なエンジニアたちは、いかに上手いアルゴリズムを使うかで日々頭をひねっているのです。

「意地悪をすれば、ハッシュインデックスの分布が偏ってしまうようなキーワード集合も作れるんじゃない？」

　意図的に、ハッシュインデックスが「a」になるキーワードだけを集めてハッシュ表を作れば、（何のためにそんなことをするのかはさておき）せっかくのハッシュ表が何の役にも立ちません。第1回で説明した線形探索よりも、仕組みが複雑な分よけいに時間が掛かってしまいます。ただし、「文書の転置インデックスを作る」という現実の目的を満たす上では、そのような意図が入る余地はほぼないので、無視してもよい問題です。

　どんな種類のデータに対しても「偏りがない」ハッシュインデックスの計算アルゴリズムは、厳密には「意図的に特定のハッシュインデックスが出てくるようなデータを作るのがとても難しい」という性質を満たさなければなりません。この性質を満たすアルゴリズムを理解するには高度な数学の知識が必要になります（きちんと説明しようとすれば1冊の本が書けてしまうほどです）。

　また、この性質を満たすアルゴリズムは、データが改ざんされていないかどうかを検証する手段としても使えます。現在、そのような性質をもつと考えられている関数（一方向性関数）がいくつか知られていて、広く使われています（SHA-1などが有名です）。

　ハッシュ表の仕組みは、GoogleなどのWeb検索エンジンはもちろんのこと、大企業や官庁の大規模データベースシステム、電子辞書ソフトなどいろいろな場所で大活躍しています。また、ハッシュインデックスを求めるアルゴリズムは、暗号アルゴリズムと組みあわせて、電子証明やデータの改ざん防止にも活用されています。まさに縁の下の力持ちである「ハッシュ表」の存在を、頭の片隅に入れておきましょう。

前へ 1 2 3 4 次へ

この連載の記事

一覧へ

WebPro

悟空、単語辞書を手に入れる

検索エンジンを作るには、コンピュータに単語の区切りを正しく「解釈」させる必要がある。どのような方法があるのだろうか。

WebPro

悟空、秘技「分かち書き」を習う

検索エンジンは人間が使うもの。パソコンだけではなく、人間の都合も考えて検索エンジンを作るにはどうしたらよいのだろうか。

WebPro

悟空、キーワードを瞬時に見つける

大量のキーワードの列から目当てのキーワードを探し出す「二分探索法」の欠点を補うにはどうしたらよいのでしょうか？　今回は、偏ったデータを均等に分割し、すばやく検索できるようにする「ハッシュ表」を紹介します。

WebPro

悟空、キーワードを電光石火で切り出す

転置インデックスの仕組みを使って検索システムを作るには、文書の文字列から「キーワード」を切り出さなくてはなりません。そもそも、コンピュータにとっての「キーワード」とは何でしょうか？　今回はそんな疑問から考えてみましょう。

WebPro

悟空、秘剣「転置インデックス」を手に入れる

Googleはなぜ、あれほどすばやく目的の情報を探せるのでしょうか？　ヒントは、私たちが本で調べ物をするときに使っている「索引」にありました。今回は、パソコンが索引を使って文書を検索する仕組みに迫ります。

WebPro

悟空、村の中で文書を探す

「1兆ページ以上」といわれる世界中の膨大なWebページの中から、目的の情報を的確に見つけ出すGoogleの検索サービス。日々、当たり前のように利用しているGoogleの検索エンジンがどのような仕組みで動いているか、ご存知ですか？　本連載では東京大学情報基盤センター図書館電子化研究部門助教の清田陽司氏が解説します。

この記事の編集者は以下の記事をオススメしています

PROGRAMMING

WebPro

Googleはなぜ的確に探せるのか？（目次）

PROGRAMMING

WebPro

悟空、村の中で文書を探す

TREND

WebPro

Google徹底解剖

世界中の優秀な技術開発者を大量に採用し、貪欲にWebの新たな地平を切り開いていくGoogle。ひとたび技術開発者向けイベントを開催すれば、全国津々浦々からGoogleの最新テクノロジーを肌で感じようと大勢の技術者が集まり、その会場は大きな熱気に包まれる。いったいGoogleの何がそこまで人を惹きつけるのか。その源泉を探る。

トピックス

いまあえてWeb 2.0を分析する(10)――企業内Web 2.0と切っても切れないエンタープライズサーチ

企業内でWeb 2.0系テクノロジーを活用する場合に忘れてはならない“もうひとつのテクノロジー構成要素”としてエンタープライズサーチがある。

ASCII.jp

Web Professional

悟空、キーワードを瞬時に見つける (3/4)

アルゴリズムZを工夫する

「1つの箱に入っているデータの数が多すぎるので、箱の数を増やしたい」

「長いキーワードだと、ハッシュインデックスを計算するのにけっこう時間がかかってしまいそうだけど」

「意地悪をすれば、ハッシュインデックスの分布が偏ってしまうようなキーワード集合も作れるんじゃない？」

この連載の記事

悟空、単語辞書を手に入れる

悟空、秘技「分かち書き」を習う

悟空、キーワードを瞬時に見つける

悟空、キーワードを電光石火で切り出す

悟空、秘剣「転置インデックス」を手に入れる

悟空、村の中で文書を探す

この記事の編集者は以下の記事をオススメしています

Googleはなぜ的確に探せるのか？（目次）

悟空、村の中で文書を探す

Google徹底解剖

いまあえてWeb 2.0を分析する(10)――企業内Web 2.0と切っても切れないエンタープライズサーチ

すぐに役立つ！プロの解説記事

KUSANAGI開発元が語るユーザー体験を高めるWeb運用

Yahoo!ショッピングが証明、成功するユーザーインタビュー

転職・独立しようかなと思っているエンジニアに役立つ知識をシェアしよう

週刊デジタルマーケティング最前線 by D2Cスマイル

書かなきゃいけない人のためのWebコピーライティング教室

これから始める Google アナリティクスの使い方

自分で作れるIoT！Bluemixで遊んでみよう

Web Professionalの本

'新・プロが教えるデジカメ撮影テクニック

実践!Instagramビジュアルマーケティング

書かなきゃいけない人のためのWebコピーライティング教室

ASCII.jp

Web Professional

悟空、キーワードを瞬時に見つける (3/4)

アルゴリズムZを工夫する

「1つの箱に入っているデータの数が多すぎるので、箱の数を増やしたい」

「長いキーワードだと、ハッシュインデックスを計算するのにけっこう時間がかかってしまいそうだけど」

「意地悪をすれば、ハッシュインデックスの分布が偏ってしまうようなキーワード集合も作れるんじゃない？」

ソーシャルリアクション

この連載の記事

悟空、単語辞書を手に入れる

悟空、秘技「分かち書き」を習う

悟空、キーワードを瞬時に見つける

悟空、キーワードを電光石火で切り出す

悟空、秘剣「転置インデックス」を手に入れる

悟空、村の中で文書を探す

この記事の編集者は以下の記事をオススメしています

Googleはなぜ的確に探せるのか？（目次）

悟空、村の中で文書を探す

Google徹底解剖

いまあえてWeb 2.0を分析する(10)――企業内Web 2.0と切っても切れないエンタープライズサーチ

すぐに役立つ！プロの解説記事

KUSANAGI開発元が語るユーザー体験を高めるWeb運用

Yahoo!ショッピングが証明、成功するユーザーインタビュー

転職・独立しようかなと思っているエンジニアに役立つ知識をシェアしよう

週刊デジタルマーケティング最前線 by D2Cスマイル

書かなきゃいけない人のためのWebコピーライティング教室

これから始める Google アナリティクスの使い方

自分で作れるIoT！Bluemixで遊んでみよう

Web Professionalの本

'新・プロが教えるデジカメ撮影テクニック

実践!Instagramビジュアルマーケティング

書かなきゃいけない人のためのWebコピーライティング教室