栗原潔の“エンタープライズ・コンピューティング新世紀” 第13回
エンタープライズサーチの真の価値を探る(3)――柔軟性が求められるランキングアルゴリズムの実装
2007年10月16日 15時50分更新
「インターネット検索」においても「企業内検索」(エンタープライズサーチ)においても、基本的な処理方式は同等だ。
「クローラー」(ロボットとも呼ばれる)という一種のエージェントが、多種多様な文書ファイルを探索し、各文書から「キーワードを抽出」(いわゆる「形態素解析」という処理である)し、各キーワードの出現位置をポイントする「インデックスファイル」を構築する。
ユーザーが検索キーワードを入力した際には、このインデックスファイルが探索され、目的の情報に高速にたどり着けるのである。
一方、インターネットサーチとエンタープライズサーチ(いわば「イントラネットサーチ」)には、大きな相違点もある。そのひとつが、その検索結果を「どういった順序で表示するか」の違いだ(これ以外にもセキュリティに対する考慮という点で両者には大きな相違があるが、これについてはまた次回以降に述べたい)。
出現頻度から、リンク分析へ
歴史をふり返ってみると、AltaVistaなどの前世代のインターネットサーチエンジンでは、基本的にキーワードの出現頻度に基づいたランキングに、ほかの要素を加味して、結果の重み付けが行なわれていた。
典型的なものとしては、
- 一般的なキーワードの重み付けを低くし、ほかの文書ではあまり出現しない特殊なキーワードの重み付けを高くする「TF-IDF」と呼ばれるアルゴリズム
- キーワードが文書の前の方に出現した場合に重み付けを大きくする手法
- キーワードが文書のタイトルやメタデータ中で使用されている場合に重み付けを大きくする手法
──などが挙げられる。
しかし、このような「伝統的なやり方」は、膨大な情報が存在するインターネット上では、必ずしもうまく機能しないことが明らかになった。
AltaVistaの結果表示が膨大すぎ、ページを何回も進めながら「目的の情報を眼で探した経験」をお持ちの方も多いだろう。さらに、多くのサイトが「SEO」(Search Engine Optimization)と称して自社のサイトを検索結果の上位に表示させるような「工夫」を行なってしまう状況が発生すると、この問題はますます悪化した。
このような問題点を解決した革新的なテクノロジーが、Googleの成功の源泉となった「リンク分析」である。
これは、前回も書いたように「多くのサイトからリンクされているサイトは価値が高い」「価値が高いサイトからリンクされているサイトは価値が高い」という前提で、検索結果のランキングを決定するやり方だ。
実際には、サイトへのトラフィック情報なども加味してランキングを最適化しているようだが、重要な情報を先頭に、あるいは最初のページに表示するという点で、Googleは十分に成功していると言えよう。
この連載の記事
-
最終回
トピックス
エンタープライズサーチの真の価値を探る(9)――多様な領域に広がるサーチの可能性 -
第18回
トピックス
エンタープライズサーチの真の価値を探る(8)――「意図のデータベース」 -
第17回
トピックス
エンタープライズサーチの真の価値を探る(7)――バーチカルサーチの可能性 -
第16回
トピックス
エンタープライズサーチの真の価値を探る(6)――真の意味のマルチメディアサーチの可能性 -
第15回
トピックス
エンタープライズサーチの真の価値を探る(5)――サーチとBIとのもうひとつの関係 -
第14回
トピックス
エンタープライズサーチの真の価値を探る(4)――結構親密なサーチとBIの関係 -
第12回
トピックス
エンタープライズサーチの真の価値を探る(2)――ポータルとしてのサーチ -
第11回
トピックス
エンタープライズサーチの真の価値を探る(1) -
第10回
トピックス
いまあえてWeb 2.0を分析する(10)――企業内Web 2.0と切っても切れないエンタープライズサーチ -
第9回
トピックス
いまあえてWeb 2.0を分析する(9)――Web 2.0系テクノロジーはどこが優れているのか? - この連載の一覧へ