Googleはなぜ的確に探せるのか？ ― 第3回

悟空、キーワードを電光石火で切り出す (3/3)

2008年12月15日　17時25分更新

文●清田陽司／東京大学情報基盤センター図書館電子化研究部門助教

ツイートする

キーワードをすばやく探し出す方法その1　～二分探索法～

　大量のキーワードの列から目当てのキーワードを探し出すのに、私たちは無意識のうちにすばやく探せる方法を使っています。国語辞典をひくときです。

国語辞典では、言葉の読みの位置から範囲を絞っていくことですばやくキーワードを探し出しています（写真は角川書店の「角川国語辞典」）

　たとえば、「パソコン」という言葉を国語辞典でひいてみましょう。まずは見出しを使って「は」のページを開くことでしょう。読みが「は」（または「ば」「ぱ」）で始まる言葉が五十音順で山ほど並んでいます。そんなとき、私たちは「は」のページ束の真ん中あたりのページを開いて、そのページに現れる言葉の読みを調べます。もしそれが「はし」で始まる言葉（たとえば「はしか」）であれば、「『パソコン』の『はそ』はここより後ろのページだな」と判断して、もう少し後ろのページをめくるでしょう。そのページの言葉の読みが「はち」（例えば「蜂蜜」）であれば、「ちょっと行きすぎたな」と判断して、「はし」と「はち」の中間あたりのページを開くでしょう。このようにして、調べたい言葉「パソコン」といま開いているページに載っている言葉の読みを比べながら、「パソコン」が載っているページの範囲を絞り込んでいきます。この方法で、1ページずつめくっていくよりもずっと早く「パソコン」を探し出せます。

　パソコンがメモリー上のキーワード列から目当てのキーワードを探し出す際にも、全く同じやり方が使えます。ただし条件が2つあります。「キーワード列が辞書順に並んでいること」と、「キーワード列の末尾の番号（つまりキーワードの数-1）があらかじめ分かっていること」です。

　下の図を見てください。32個のキーワード列が辞書順（ABC順）に並んでメモリーに格納されています（ここでは説明を簡単にするために表を使っていますが、実際にはメモリーに格納されていることを忘れないでください）。また、キーワード列の末尾の番号も「31番」と分かっています。

　人間が国語辞典を引く方法をパソコンで模倣する手順は以下のように書けるでしょう（この手順のことを「アルゴリズムY」と呼ぶことにしましょう）。

探したいキーワードをメモリーの別のエリアに格納しておきます。
キーワード列の探索範囲（先頭の番号～末尾の番号）を覚えておきます。最初は0番～31番です。
探索範囲の中央にあたるキーワードを調べます。中央の番号は、探索範囲の先頭の番号と末尾の番号から計算できます。
探索範囲中央の番号＝（末尾の番号+先頭の番号）÷2（小数点未満は切り捨て）
探索範囲中央のキーワードと、探したいキーワードを比較します。

探したいキーワードが探索範囲中央のキーワードよりもアルファベット順で前にあたる場合：

探索範囲の末尾の番号を以下の計算式で更新します。
新しい末尾の番号＝現在の探索範囲中央の番号－1

探したいキーワードが探索範囲中央のキーワードよりもアルファベット順で後ろにあたる場合：

探索範囲の先頭の番号を以下の計算式で更新します。
新しい先頭の番号＝現在の探索範囲中央の番号＋1

探したいキーワードが探索範囲中央のキーワードと一致する場合：

ビンゴ！現在の探索範囲中央の番号が、探していたキーワードの番号です。ここでアルゴリズムを終了します。

先頭の番号が末尾の番号よりも大きくなってしまった場合

探したいキーワードはキーワード列の中に存在しないものと判断し、アルゴリズムを終了します。たとえば先頭の番号が5番、末尾の番号が4番になっている場合は、探索範囲自体が存在しないことになります。
3に戻ります。

　探したいキーワードが「ITALY」であるとき、アルゴリズムYを前の図に適用した様子を図に示します。探索範囲が徐々に絞り込まれていく様子が分かります。

　実は「アルゴリズムY」は、あらかじめ並べられたデータの配列を高速に検索できる有名なアルゴリズムで、探索範囲を二つずつに分割して絞り込んでいく様子から、「アルゴリズムY」のことを「二分探索法」と呼んでいます。

　「こんな方法ですばやくキーワードを探し出せるの？　たとえばキーワード列の長さが100万個あったらけっこう長い時間がかかりそうに思うけど？」―――それでは、100個のキーワード列に二分探索法を適用したとき、探索範囲の大きさがどう変化していくかをシミュレートしてみましょう。下の図にその結果を示します。

　探索範囲の大きさが半分ずつになっていくので、最悪の場合でも19巡目で探索が終了してしまいます（ほとんどの場合はこれより早く終わるはずです）。たとえ1兆個（！）のキーワード列でもせいぜい38巡目で終わってしまいます。現代のパソコンであれば一瞬です。

　二分探索法の基本的な考え方は、「大きな問題（探索範囲の中から探したいキーワードを見つける）をより小さな問題（探索範囲を半分に絞り込んだ中から探したいキーワードに見つける）に分割する操作を繰り返すことで、大きな問題を解く」というものです。この考え方を「分割統治法」と呼びます。分割統治法をうまく使うと、とても複雑な処理がいとも簡単にできてしまったりします。ぜひ覚えておいてください。

「そういえば、キーワード列を並びかえるのはいったいどうやるんだっけ？」―――そう、二分探索法の前提は「キーワード列が辞書順に並んでいること」でしたね。実は、「データを並びかえる」ためのアルゴリズムが世の中にはたくさん存在します。「バブルソート法」「クイックソート法」「ヒープソート法」などです。この連載では説明しませんが、もし興味があればぜひ調べてみてください。アルゴリズムの世界の面白さと奥深さがわかりますよ。

　さて、二分探索法には重大な欠点があります。キーワード列の更新が頻繁に起こるときに使いづらいのです。たとえば、先ほどの図のキーワード列に「JAPAN」を追加しようとすると、どういうことが起きるでしょうか。「JORDAN」よりも後ろのキーワードをすべて1つずつ後ろにずらす必要が生じます。

　「そんなこと、パソコンは一瞬でできるんじゃないの？」―――それが実は違うのです。パソコンのメモリーに入っている情報は、名刺ホルダーに入っている名刺と同じように、数バイトずつしか取り出せないのです。キーワードの数が膨大になってくると、一つずつずらす操作には長い時間がかかってしまいます。

　次回は、キーワードを高速に探し出すもう1つの方法であるハッシュ法について説明します。

前へ 1 2 3 次へ

この連載の記事

一覧へ

WebPro

悟空、単語辞書を手に入れる

検索エンジンを作るには、コンピュータに単語の区切りを正しく「解釈」させる必要がある。どのような方法があるのだろうか。

WebPro

悟空、秘技「分かち書き」を習う

検索エンジンは人間が使うもの。パソコンだけではなく、人間の都合も考えて検索エンジンを作るにはどうしたらよいのだろうか。

WebPro

悟空、キーワードを瞬時に見つける

大量のキーワードの列から目当てのキーワードを探し出す「二分探索法」の欠点を補うにはどうしたらよいのでしょうか？　今回は、偏ったデータを均等に分割し、すばやく検索できるようにする「ハッシュ表」を紹介します。

WebPro

悟空、キーワードを電光石火で切り出す

転置インデックスの仕組みを使って検索システムを作るには、文書の文字列から「キーワード」を切り出さなくてはなりません。そもそも、コンピュータにとっての「キーワード」とは何でしょうか？　今回はそんな疑問から考えてみましょう。

WebPro

悟空、秘剣「転置インデックス」を手に入れる

Googleはなぜ、あれほどすばやく目的の情報を探せるのでしょうか？　ヒントは、私たちが本で調べ物をするときに使っている「索引」にありました。今回は、パソコンが索引を使って文書を検索する仕組みに迫ります。

WebPro

悟空、村の中で文書を探す

「1兆ページ以上」といわれる世界中の膨大なWebページの中から、目的の情報を的確に見つけ出すGoogleの検索サービス。日々、当たり前のように利用しているGoogleの検索エンジンがどのような仕組みで動いているか、ご存知ですか？　本連載では東京大学情報基盤センター図書館電子化研究部門助教の清田陽司氏が解説します。

この記事の編集者は以下の記事をオススメしています

PROGRAMMING

WebPro

Googleはなぜ的確に探せるのか？（目次）

PROGRAMMING

WebPro

悟空、村の中で文書を探す

TREND

WebPro

Google徹底解剖

世界中の優秀な技術開発者を大量に採用し、貪欲にWebの新たな地平を切り開いていくGoogle。ひとたび技術開発者向けイベントを開催すれば、全国津々浦々からGoogleの最新テクノロジーを肌で感じようと大勢の技術者が集まり、その会場は大きな熱気に包まれる。いったいGoogleの何がそこまで人を惹きつけるのか。その源泉を探る。