このページの本文へ

編集者の眼第15回

検索エンジンを作ってみた

2010年07月05日 16時00分更新

文●中野克平/Web Professional編集部

  • この記事をはてなブックマークに追加
本文印刷

 「InfoNavigator」、「WAVE Search」、「Hole-in-One」、「ドラゴン」は、かつて日本に存在した検索エンジンの名前だ。1990年代後半、国内の電機や通信系の企業、あるいはその子会社や関連会社はこぞって検索エンジンサービスを立ち上げ、2000年前後に撤退した。当時早稲田大学の学生だった田村健人氏が開発した検索エンジン「千里眼」(当初は「Searcher in Waseda」)も、前世紀に誕生した検索エンジンのひとつ。1997年にはサーバーの運用が旧株式会社アスキーに移行し、1999年に終了した。

 検索エンジンの「カンブリア爆発」が2000年頃に収束したのはいくつかの原因がある。Webページが大量に増え、もはや個人や他業種の企業が片手間に用意したサーバーではインデックスできなくなったこと、形態素解析やスコアリングなどの手法が高度になり、最新のコンピュータサイエンスの成果を活かさないと満足のいく検索結果をユーザーに提示できなくなったのも一因だろう。AltaVistaやInfoseek、Yahoo!などが群雄割拠する時代を経て、Googleが勝利した後の時代に生まれたのがデジタルネイティブというわけだ。

 ただ、雑誌編集からWebメディアに関わるようになった私としては、「Google的」な検索順位の決め方にいくらかの不満が残る。つまり、ユーザーがキーワードを入力し、適合する文書をTF-IDF的な手法によって抽出し、何らかのスコアリングアルゴリズムを加味し、見栄えよく処理して、ユーザーに出力する、という検索エンジンのスタイルだ。

 不満の原因は、「編集」という行為も、実は検索エンジン的だからだろう。それぞれの雑誌には「男の手料理」や「奥さん以外と週末にデート」といったコンセプトがあり、さらに毎号の特集ごとに「夏野菜」や「駅近グルメ」などのテーマがあって、記事を作る。記事の並び順はキーワード適合率ではなく、編集部のオススメ度だったり、見た目の派手さだったり。ニュース記事であれば、インパクトや鮮度で並び替えて誌面を作る。編集者の中に「キーワード適合率」のような概念はないが、どのように特集や誌面を構成すると読者の受けがいいか、つきつめればどうすれば売れるのか?という概念があるわけだ。

 こういう編集的な考え方を検索エンジンに取り入れたらどうなるだろうか?という思いで試作したのが「ASCII.jpウェブ検索である。豪華なサーバーを使っているわけではないので大量のクエリーがあっても処理できないが、「こういう検索エンジンもあるんじゃないか?」というささやかな提案だ。

 「雑誌編集」的な検索エンジンなので、検索対象はメディアや一部企業などが中心で、CGMははてなブックマークのホットエントリーなど、フィルターを通してしか扱わない。「前号の大きなニュースより、今号の中くらいのニュースの方が価値がある」というのが雑誌的な価値観なので、検索結果の並び順は日付による新しい順である。今後は上場企業や政府、公益法人などを検索対象として追加していくつもりで、少なくとも雑誌編集者のネタ元にはなるはずだ

 こうして検索エンジンを作ってみた上で、GoogleやYahoo!の検索結果と比べると、旧来のメディアが何を伝え、何を伝えなかったか。検索エンジンで何が探せるのかが見えてくる。たとえば「電子書籍」で検索してみよう。ASCII.jpウェブ検索では電子書籍についての議論が多く見つかるのに対し、Googleでは電子書籍を売りたい人の情報が多い。どちらも電子書籍そのものはあまり見つからない。もし雑誌であれば、電子書籍の技術解説、ビジネス動向、キーパーソンインタビューがあったり、代表的な電子書籍の一覧が特集の最後にリストアップされていたり、「本当に電子書籍に未来はあるのか?」といった、特集のオチに相当する記事があったりするだろう。雑誌は「ストーリー」を扱い、検索エンジンは「商品」を扱っているわけだ。

 雑誌では、販売情報や定番情報は分けて扱うのが通常なので、「殿堂入りサイト」であるAmazonとWikipediaは表示エリアを別にした。せっかく自前のエンジンを作ったので、次は「電子書籍」というクエリーに対して、オススメの電子書籍を提案するような機能追加をやってみよう。蛇足だが、検索対象タブの「すべて」のアイコンは千里眼と同じ目玉にしてみた。

追記(2010/07/06)

読者から熱い応援をいただきました。ありがとうございます。「雑誌編集的検索エンジン」はアルゴリズム、実現方法を検討するところから自前でやらなければならず、なかなか大変です。「個々のユーザーにとっての有益な情報とは何か?」は、従来、編集者がもっとも重視してきたことですので、コンピュータサイエンスの常識にとらわれずに、こつこつと機能を追加していこうと思います。

■関連サイト

この連載の記事

一覧へ

この記事の編集者は以下の記事をオススメしています