このページの本文へ

米Google、ニュース検索の再訪問(クロール)を強化

2010年02月02日 21時00分更新

記事提供:SEMリサーチ

  • この記事をはてなブックマークに追加
本文印刷

米Googleは2010年1月25日、ニュース検索において再クロールを強化し、常に最新の更新を反映した記事を検索・閲覧できるようにしたことを明らかにした。

Google Newsは、世界中のニュースソースをクロールして記事見出しを収集するとともに、類似した内容の記事をグルーピングして表示するニュース検索エンジン。公開されてわずか数分のニュース記事も取得することで、常に最新のニュースを探せるようになっている。

ニュース検索エンジンは、一般のウェブ検索と異なり、一度収集したニュース記事のページを何度も再訪問するわけではない。しかし、これが特有の問題を招く場合がある。

たとえば、一部のニュースソースは、記事公開後に誤字脱字の訂正を行ったり、話の進展があった場合にアップデートを追記したり、あるいはヘッドラインを変更する場合があるが、これらがGoogle Newsに反映されないケースは少なくない。また、これらの変更を加えた場合にURLが変更される場合もあるし、何らかの理由で記事が取り下げられる場合もあるが、やはりGoogle Newsはこうしたケースにリアルタイムに対応できているわけではなかった。

こうした問題を解決するために、Google Newsはニュース記事の再クロール(recrawl)を強化することを決めた。特に何らかの修正が行われるのは公開されて最初の24時間に行われるケースが大半であることから、新しいニュース記事を発見して最初の24時間は特に再訪問を何度か行い変更の有無を確認する。24時間経過後は変更される確率が下がるため、クロール頻度を徐々に下げていく。また、最初の訪問時に何らかの理由で記事が取得できなかった場合も、再取得を試みるようにするという。

こうした対応により、デッドリンクや古くなったヘッドラインの割合を減らし、最新ニュース記事の反映と古くなった記事のリアルタイム・アップデートを両立させていくとしている。

Google News Comes Back For More [Google News]
http://googlenewsblog.blogspot.com/2010/01/google-news-comes-back-for-more.html

Web Professionalトップへ

WebProfessional 新着記事