このページの本文へ

Google 主要な検索アルゴリズム変更/検索技術刷新の歴史 7選

2013年12月20日 14時39分更新

記事提供:SEMリサーチ

  • この記事をはてなブックマークに追加
本文印刷

2000年1月から2013年12月までのGoogleの検索アルゴリズムや検索技術の変更・刷新の歴史の中で、重要なものを7つピックアップしてみました。

※ 当初このコラムは、直近の検索技術刷新(パンダやペンギン)にフォーカスするつもりでしたが、年末ですしちょっと過去にも遡ってみようという軽い思いつきで趣旨を変更しました。

フリッツ・アップデート(Fritz Update)

アップデート内容:フリッツ・アップデート(以下、Fritz)はインデクシング技術の大幅刷新。2003年夏に導入。Googleは世界中のウェブページの索引をデータベース化したインデックスを、およそ30-60日程度の周期で全体更新(Full Index Update/Refresh)していた。すなわち、検索順位の変動が発生するのはこの更新タイミング、約1か月に1回の頻度であった。たとえば本日公開した記事が検索可能になるのは30~60日後という意味でもある。

ところでこのインデックス全体更新は瞬時に終了するわけではなく数日を要したため、この更新期間中のみサイトの検索順位が激しく変動していた。この変動の様子を当時はGoogle Dance(グーグル・ダンス)と呼んでいた。

Fritzはこのインデックス更新方法を完全に刷新した。直近で公開されたばかりのウェブページを検索結果に反映できるよう、従来のフルインデックスを残しつつ、別途、前回との差分をインデックスに追加する Incremental Indexを導入し、毎日、新鮮な検索結果を提示できるようになった。この変更により検索順位発生頻度は月1回から毎日へと変わり、Google Dance という言葉も消滅することとなった。

影響:2003年夏以降、Googleのインデックス速度は年を追うごとに高速化され、後述する Caffeine により飛躍的に検索結果鮮度が高まることとなる。

フロリダ / オースティン / ブランデー アップデート (Florida / Austin / Brandy Update)

アップデート内容:2003年11月から2004年2月にかけて行われた、今日(2013年時点)の歴史の中でも間違いなく最大規模といえる検索アルゴリズムの刷新。フロリダは2003年11月、オースティンは2004年1月、ブランデーは2004年2月。

当時、PageRankアルゴリズムが広く知れ渡り、それを逆手にとった様々なタイプのウェブスパムがまん延していた。例えば、1つのドメインに対して数百万ものサブドメインを設定してサイトを開設。そのサイトには1~2行のテキストと、検索順位を上げたいターゲットサイトへのキーワードリンクを書きこんでおき、その数百万ものサイトにアップロードするだけで検索順位を上げることが可能だった。

こうしたウェブスパムに対処するためにGoogleはFlorida Updateを導入した。この後、Florida Updateの不具合を修正しつつ新機能を追加した Austin が、さらにその不具合を修正するために Brandy が導入された。本稿では一連のアルゴリズムを1つの出来事としてまとめて以下に概要を記す。

まず第1に、Hilltopアルゴリズムが導入された。PageRankは検索クエリに依存しない、インターネット全体におけるサイトの重要度を推し量るアルゴリズム(Query Independent Algorithm)だったのに対し、Hilltopアルゴリズムは検索クエリに応じて最も専門的で相応しい、権威性の高いサイトを選択するアルゴリズム(Query Dependent Algorithm)だった。検索クエリと関連性が高いエキスパートドキュメントを2つ以上発見し、そのエキスパートドキュメントが相互参照するウェブサイトを特定することで権威性を評価するアプローチだ。このHilltopアルゴリズムは1~2単語以内の一般検索キーワード(Generic Keyword、たとえばキャッシング、転職、不動産、旅行などのキーワード)に適応されることで、検索結果に関連性が高いウェブページが出現するように大幅に改良された。

Hilltopはまた、当時横行していたリンクファーム、自分で大量のウェブサイトを立ち上げて互いに相互リンクする行為を完全に排除することも試みられた。IPアドレスや地域、リンクグラフの近接度など様々なシグナルを分析して「同一人物や利害関係者が関与しているであろうリンクネットワーク」の評価を下げるように工夫が施された。こうした一連のHilltopアルゴリズムによりホリデーシーズンを迎える直前に非常に大きな検索順位変動が発生したため、多くの企業から不平不満の声が高まった。以後、Googleはホリデーシーズン期間の大幅な検索アルゴリズム更新は実施していない。

この一連のアップデートで導入された機能がもう1つある。それは、検索クエリの類義語や同義語を判断して、検索結果に表示する技術だ。当時、Google はセマンティック技術を開発していた Circa (後に AdSense に導入される技術を持っていた企業)を買収した。Circa のセマンティック技術を検索に導入し、検索クエリの類義語や同義語(例えば SEO = Search Engine Optimization、AA = American Airlineなど)を判定し、それら文字列を含むウェブページも検索結果に表示するように改善した。このように1つの検索クエリに対してヒットする対象のウェブページが大幅に拡大したことも検索順位の大幅な変更を招くことになり、先述した Hilltopアルゴリズムとの(ほぼ)同時導入により英語圏を中心にウェブサイト運営者に多大なる影響を与えることとなった。

ビッグダディ(Big Daddy)

アップデート内容:ビッグダディは2005年12月にロールアウトされた、Googleの新しい検索インフラストラクチャ。将来の様々な新機能を搭載するための基盤整備という位置づけであり、この検索基盤刷新以後、nofollow や canonical、新しいリダイレクト処理、重複コンテンツ判定、リンクの信頼性評価、ユニバーサル検索など様々なアルゴリズム変更が次々と投入されることとなる。

カフェイン (Caffeine)

アップデート内容:2009年夏にプレビュー公開され、翌年2010年6月にロールアウトされた、検索インフラストラクチャの刷新。先述した Big Daddy から5年ぶりの検索基盤の刷新となる。当時すでに多様化が始まっていたオンラインコンテンツの様々な形式(ブログ、ニュース、画像、動画、etc)を問わず高速にインデックスして検索可能にすることを目指した。検索結果の鮮度を極限まで高め、ページ公開から数分程度でインデックスできるようにした。また、過去の「フルインデックス」と「インクリメンタルインデックス」という概念を改め、リアルタイムで動的にインデックス全体の鮮度を高めるアプローチをとった。更新インターバルがほぼゼロとなる。

パンダアップデート(Panda Update)

アップデート内容:2011年2月に導入されたパンダアップデートはコンテンツの品質を評価し、ある話題に対する分析や考察が詳細に行われているなど来訪者に価値ある優れたコンテンツを提示するウェブページを検索しやすくすると同時に、内容が乏しい来訪者に役に立たないウェブページが検索上位に表示されないようにすることを目的とした検索アルゴリズム更新。当時、米Demand Media に代表される、世界中のフリーライターが日々大量の(決して品質が高くない)コンテンツを大量投入してGoogleからトラフィックを獲得するビジネスが横行したことや、SEOを目的として役に立たないページを大量生産してみかけ上のサイトの規模を大きくする行為が横行していたが、こうしたコンテンツは来訪者にとって価値はほぼゼロに等しい。こうした状況を放置しておくことは中長期的に検索品質のさらなる低下を招き、検索利用者の離反を招く恐れがあることから、対処するためのアルゴリズムとしてロールアウトされた。パンダアップデートはその後、一定の周期でデータ更新が行われており、2013年12月現在は月に1回、パンダアップデートを適用したデータリフレッシュが実施されている。

ペンギンアップデート (Penguin Update)

アップデート内容:2012年4月に導入されたペンギンアップデートはブラックハットSEO、つまりウェブスパムの排除を目的とした検索アルゴリズム更新。先述したパンダアップデートは"コンテンツの品質を評価する"ことに重点を置いたアルゴリズムであるが、このペンギンアップデートは"ウェブスパムを排除する"ことに重点を置いている。傾向として比較的古典的なウェブスパムを無効化しているのが特徴で、たとえば相互リンクサイトへの登録、ワードサラダあるいは適当な日本語を記述しつつ随所にキーワードリンクを埋め込む手法、関連性が低く低品質なサイトからかき集めたリンクの無効化、RSSを取得してコピペしただけのサイトなどへの対策が行われた。

ハミングバード

アップデート内容:2013年9月に導入されたハミングバードは音声検索による口語調の検索クエリや、ピンポイントな情報を欲しているであろう複雑な組み合わせの検索クエリを用いた場合でも、検索意図を汲んだ関連性が高い検索結果を表示するための、検索クエリの処理に関する技術刷新。

検索クエリとして入力された文字列をそのまま受け入れて、文字列を含むウェブページから関連性が高いページを探すのではなく、その文字列の背後にある検索利用者の意思や意図をくみ取り、その意図に合致した、すなわち、検索利用者が欲しているであろう回答を検索結果に表示するように試みた。例えば「新宿駅近くの駐車場は?」という検索クエリを例にとろう。例えば「近くの」は「徒歩3分」「周辺」「近所」「近くの」といった言葉も意図に合致するし、同じく駐車場も「コインパーキング」「パーキング」といった文字列を含むページでも検索要求を満たしているはずだ。こうしたパラフレーズ(言い換え)可能性のある言語のうち、検索意図を汲んでいるであろうパラフレーズを選択し、それに関連する検索結果を提示するようにすることで、口語調の検索クエリに対しても適切な検索結果を返すことが可能となった。


#
投稿してから、「ユニバーサル検索を何故いれないの?」という疑問がわいたのですが、もういいや…。どうしよう。

Web Professionalトップへ

WebProfessional 新着記事