ウェブ検索をしていると、スニペットを見る限り目当ての情報がありそうなのに、いざクリックしてページを閲覧してみたら全く内容に乏しいページや、機械的に収集・生成されただけのページが開いてガッカリした、という経験を持つユーザも少なくないだろう。Googleは、検索品質を向上させるための取り組みとして、ユーザから報告されるウェブスパムレポートを活用している。さて、このウェブスパムレポートを、Googleは社内でどのように活用しているのだろうか?また、Googleにウェブスパムレポートをきちんとフィードバックしてもらうために、何をレポートに盛り込むべきだろうか?米Googleは2010年11月4日に公開した公式ブログで、この話題についての記事を投稿した。
露出度が高いスパムページは、優先的に調査する
前述したとおり、Google検索品質担当チームは、ユーザから寄せられたウェブスパムレポートを参考に、スケーラブルなスパム排除技術を導入して検索品質を改善する取り組みをしている。最近Chromeブラウザ向けにChrome extension to report spam という拡張機能を公開したのも、ユーザからの報告が増加しており、Googleとして適切なリソースを配分するためだという。
同社は、ユーザから寄せられたウェブスパムレポートを、その影響の度合いに応じて優先順位をつけている。特に影響が大きなサイトに迅速に対応するためだという。たとえば、継続的に検索結果の1ページ目や2ページ目に掲載されているウェブスパムページは、インプレッション数も多くなるため優先して対応していくが、相対的にインプレッションが少なく、ほとんどのユーザが目にしないウェブスパムページは後回しにされる。ただし、Googleは報告されたページを参考に、当該ページだけでなく類似ページも同時に排除できるようにアルゴリズムの改良やスパム排除技術を導入するアプローチをとっているため、一部の例外を除き、特定のサイトを主導で認知・処理するといったことは行っていないと説明する。
どんなサイトをウェブスパムと報告すべきか?
どんなウェブスパムをGoogleに報告すべきか。スパムサイトが報告されることは歓迎だが、もしスパムではないサイトを報告させてしまうとあっては、ユーザの貴重な時間を無駄に費やさせてしまうことになる。
Googleが用意しているスパム報告フォームは、あくまでウェブスパムのコンテンツをレビューするためのものだ。もし、それ以外の理由でGoogleに検索結果から排除する/その努力をして欲しい人のために、次のようなフォームも用意している。たとえば、特定URLを削除して欲しい場合のURL removal tools、マルウェアが仕込まれているサイトの報告はmalware report form、有料リンク(Paid Links)を報告したいユーザにはpaid links reporting form、スパム的な外部リンク対策で順位を上げているサイトを報告したい場合は linkspam の手続き(※注 ウェブスパム報告フォームの詳細入力欄に、"linkspam" の文字列(半角小文字)を入れること)、勝手にコンテンツが使われているという著作権がらみの話は copyright prosess だ。
一方、パークドメイン(まだコンテンツが用意されていない、ドメイン取得直後に出てくるような案内ページのこと、たとえば「工事中」など)や、技術的な問題でアクセスができないようなサイトは、Googleに報告する必要はない。これらは別にスパム行為ではないからだ。また、あるドメインにアクセスした時に自動的に別ドメインにリダイレクトされることも、適切にコンテンツが提示されている限りスパム(またはスパムの疑いがある)とはいえないので、報告する必要はない。Googleは、報告をする前に Google Webmaster Guidelines を読んで、スパム該当行為をチェックして欲しいという。
ウェブスパム報告フォームに記載すべきこと
第1に、実際に見たスパムページのURLを正確に記述すること。決してドメイン名だけを記載するのではなく、該当ページの直URLを、間違いなく記すことだ。この情報がなければ、Googleはそれを参照することすらできない。
第2に、できるだけ問題のスパム行為を特定してチェックボックスに印をつけることだ。単純に用意されたチェックボックスすべてに印をつけたようなレポートは、参考にならないという。報告するなら、それは「隠しテキスト」なのか、「クローキング」なのかはっきりと報告をしよう。
第3に、Additional details(詳細を記述するところ)には、簡単にページのどこが問題なのかを指摘してほしいという。たとえば、ページのある場所に隠しテキストが埋め込まれているようであれば、その箇所を説明することだ。
すでに「対応済み」の検索エンジンスパムの場合もある
ユーザから寄せられたフィードバックを参考に実際のスパムサイトを確認した後に、アルゴリズムのアップデートの検討を行うことになるが、実装されるまでに時間を要する場合もあるという。ただ、報告の中にはすでに対応済み・対応中のものが含まれていることも少なからずあり、たとえば大抵の隠しリンクスパムや悪質な相互リンクといった類の報告は無視されるという。また、(対応されないからといって)何度も同じスパム報告を行う必要はないので、様子を見て欲しいとのことだ。
How to help Google identify web spam
http://googlewebmastercentral.blogspot.com/2010/11/how-to-help-google-identify-web-spam.html
Calling for link spam reports
http://www.mattcutts.com/blog/calling-for-link-spam-reports/
Spam report
https://www.google.com/webmasters/tools/spamreport
以上、Googleブログより。
##
おまけ:グーグル日本版は本当にウェブスパムに対応しているのか?
Googleのウェブスパムの対応の実態については、欧米では昔からずいぶんといろいろな事例を元に「それなりに、厳しく対応」していることが報告されているが、グーグルにとって見れば世界の中の1国でしかない日本の状況はどうなっているのだろうか。この点について、いろいろな場面で質問を受けることがあるので、ここで一度、皆さんに最近の状況について共有しておこう。
たとえば、とあるサーバ事業者が展開していた、数百以上にわたる、SEO目的のスパムサイトが3週間ほどで軒並みインデックスから削除された上にPageRankもリセットされた事例、有料リンクを販売・掲載していた市区町村サイトが一般公開からわずか数日でPageRankを下げられるペナルティを受けた事例がある。また、私が定期観測しているウェブスパム報告とその後の対応データを見る限り、悪質なものは軒並み6ヶ月程度で、何らかの措置(該当スパムサイトが検索上位に表示されなくなる、インデックスから除外される、など)が行われていることを確認している。
さらに、直近1~2年は、隠しリンクテキスト(意図的な、悪質性の高いものから、マークアップのミス、不適切な実装による不慮の事故まで含めて)によるGoogleからの指摘事例も増えていることから、日本のGoogleも検索結果の品質改善のために努力しているといえるのではないだろうか。