このページの本文へ

『プロ野球 オープン戦』で学ぶ Google検索アルゴリズムの仕組み - クエリ分析と文書評価

2014年02月24日 21時04分更新

記事提供:SEMリサーチ

  • この記事をはてなブックマークに追加
本文印刷

時事性の高い話題に関する Google 検索アルゴリズムについて、最近よく質問を受けるので簡単に解説します。上級者向けです。

検索時点でタイムリーな検索結果を返す Google

つい先日までソチで開催されていたオリンピックに関する連日の話題や、電車脱線事故といったニュース速報が流れて世の中の人々の関心事が高まった時に最新の検索結果を表示する仕組みとしてQDFは比較的良く知られています。しかし、ほんの2,3日という短い間の出来事にかかわらず、人々は時としてもっとも新しい情報を欲して検索することもあります。例えば(2014年2月24日時点)「プロ野球 オープン戦」と検索する人の大半は、昨年や5年前のオープン戦の話ではなく、これから始まるであろう2014年のオープン戦の情報が欲しいという意図を検索に込めているに違いありません。

ここで、Google と Bing それぞれの検索結果を比較してみましょう。『プロ野球 オープン戦』 GoogleBing。どうでしょうか、Bing は2013年やそれ以前のオープン戦の情報を出してきますが、Google は今年開幕したばかりのオープン戦の話題が大半を占めています。キーワードを『オープン戦 開始』と変えてみても、Bing は2012年や2013年のオープン戦開始うんぬんのウェブページを上位に表示するのに対して、Google は2014年のオープン戦を中心に表示していることがわかります。 ※ いずれも2014年2月24日時点

別の例として、(ある意味わかりやすいかもしれません)「ゴールデンウィーク」と検索した時の結果を Google と Bing で比較すると、まだ2014年のゴールデンウィーク特集を用意しているサイトの絶対数が少ないこともありますが、それを踏まえても Google と Bing の検索結果の表示の仕方に大きな違いがあることがわかるでしょう。


Googleが「最新」「タイムリー」を判定する検索アルゴリズムの仕組み

実はこうしたウェブページの順位付けは、Google が2011年に発表したタイムリーな検索結果を表示するためのアルゴリズム改善の一貫でもあるのですが、本コラムでは検索アルゴリズム的にどのような分析を行っているのか、ざっくりと説明します。

具体例を挙げた方が理解がしやすいと思いますので、ここでは「プロ野球日本シリーズ」を使って説明します。

日本シリーズ 対戦チーム(優勝チーム)
2013年 巨人 x 楽天 (楽天)
2012年 巨人 x 日本ハム (巨人)
2011年 中日 x ソフトバンク (ソフトバンク)
2010年 中日 x ロッテ (ロッテ)
(以下、略)

世の中でこうしたイベントが起きた時に、Google は検索の世界で次のような検索クエリやウェブページのデータ分析を行います。

【検索クエリの変化】 日本シリーズは毎年10月下旬頃から開催され、11月上旬には決着して優勝チームが決まります。検索クエリのトレンドを(日/週/月/年)などの一定期間に区切って分析すると、様々な検索意図や関心の変化が生まれていることがわかります。例えば (a) 年単位でキーワード『日本シリーズ』の検索需要が高い時期がある、(b) 日本シリーズと同時に検索される語句は毎年変化する(チーム、球場、選手などのクエリ)、(c) キーワード『日本シリーズ 優勝』と同時に検索される語句も変化する、といった具合です。こうした検索クエリの傾向は、作成・公開された文書の日付や情報鮮度、更新性に基づいてページをどのように評価することが最も適切であるかを判断する材料となります。


【ユーザが選択する文書】 2014年2月時点でキーワード『プロ野球 オープン戦』と検索する人々の大半はきっと、検索結果で「今年の」オープン戦の話題を扱うページをクリックするでしょう。しかし同じキーワードながら来年・2015年にプロ野球 オープン戦と検索する人は、今年よく訪問したであろう(2014年の)ページではなく、2015年のオープン戦に関するウェブページをクリックするに違いありません。このように、同じ検索クエリに対してユーザーが実際に選択したウェブページの分析は、該当する検索クエリに関連するトレンドやユーザの検索要求の変化の有無を知る手がかりになります。

※ ちなみに、仮に2014年の日本シリーズも巨人と樂天の対戦となり、楽天が勝利・優勝したとしても、後述するように検索クエリが変化した時期に出現するウェブページの分析を行うことにより、検索数量の変化に準じて検索結果も大きく変化している(巨人 x 楽天を含む新しい文書が大量に出現する、という変化)データに基づいて、やはり(2014年の冬に『日本シリーズ 優勝』と検索した時には)2014年の記事や話題をきちんと検索結果に表示することができます。


【検索結果に占める特定ウェブページの増加量】 2014年のプロ野球の春季キャンプやオープン戦開幕にあわせて、特定の話題に関する文書(つまり2014年のオープン戦を話題にするウェブページ)が急激に増加しているはずです。この急激な変化が過去にも定期/不定期に何度か発生しているのであれば、検索エンジンはどの時点のウェブページが(検索時点で)最も適合性を高くすべきかを判断する手がかりを得られます。

【陳腐化したウェブページと最新のウェブページの区別】 検索クエリに合致する1つ1つのウェブページの作成・公開日時や、過去のある期間におけるリンクの成長速度/数量/率、外部からのリンク及び外部へのリンク、そのアンカーテキスト、更新履歴など、ウェブページに関するヒストリーデータを分析することで、その当該文書は普遍性の高い情報なのか、単なる過去の記録になったのか、それとも歴史が大きく変わり誰からも求められていない文書であるのか、といった文書の(検索時点での)価値を推し量ることが出来ます。


新しいウェブページほど評価されるわけではない

検索クエリの分析、そのクエリが出力する検索結果の変化、そのクエリの検索結果に含まれるウェブページの内外要因の変化、ユーザーの選択など、様々な要素を複雑に解析することにより、ある検索クエリに対して一定以上の鮮度の高いウェブページを上位に表示すべきか、それとも鮮度は重要視せず信頼度の高いウェブページを表示すべきかを判断しています。

2013年11月の時点でクリスマスと検索すると「2013年のクリスマス特集」関連のページが表示される、2014年2月時点でホワイトデーと検索すると「2014年のホワイトデー特集」が表示されるといった事実は多くの方が当たり前に考えているかもしれませんが、2010年、ほんの4年前はそれが当たり前ではありませんでした。Bing と比較すると、Google の検索が優れている一面がよくわかりますね。

今後、こまめにニュースをチェックして、(今までたいした話題もなかった事柄について)法改正が行われる、制度が大きく変化するといったタイミングで是非検索結果をチェックしてみて下さい。検索結果に表示される情報が大きく変化しますし、検索エンジンの賢さを垣間見ることもできるはずです。

さて、こうした話をすると一部の方が必ず斜め上の解釈をして SEO に活用しようとするので注意事項として書いておきますが、『Google は新しいウェブページをより高く評価するわけではない』ので勘違いなさらぬようご注意下さい。

上記の話の本質は、Google は検索クエリの特性にあわせて、文書の作成・公開日をポジティブに扱うこともあれば、ネガティブに扱うこともあるということです。例えば、『フィギュアスケート 金メダル』という検索クエリに対しては、つい先日のソチオリンピックの情報を表示する方が関連性が高い、すなわちバンクーバー冬季五輪の頃の文書よりも、つい先日更新された鮮度の高いウェブページを重み付けします。しかし、キーワードが『フィギュアスケート 金メダル バンクーバー』であれば、4年前に更新されたウェブページの方が適合性が高いでしょう。同じく、『源義経』や『鎌倉幕府』『弥生時代』といった歴史上の人物や事象に対しては情報鮮度よりも権威性や信頼性に基づいて検索順位を決定した方が有益でしょうが、歴史的人物でもまだ生存している『辻正浩』と検索した時には最近の活動(≒新しいページ)を検索結果に表示した方が良いでしょう。

『サイトの過去の記事も含めて更新をかけたら検索順位が上がるのか?』『ウェブページの作成日時を毎日更新したら順位があがるのか?』といった質問をされることがありますが、以上のお話から時間の無駄である、ということがおわかり頂けましたでしょうか。

Web Professionalトップへ

WebProfessional 新着記事