米GoogleウェブスパムチームトップのMatt Cutts(マット・カッツ)氏が、同社が細分化された1つ1つの分野や話題における権威あるサイトや人物を発見するための検索アルゴリズム開発に取り組んでいることに言及した。
"We have been working on a lot of different stuff. We are actually now doing work on how to promote good guys. So if you are an authority in a space, if you search for podcasts, you want to return something like Twit.tv. So we are trying to figure out who are the authorities in the individual little topic areas and then how do we make sure those sites show up, for medical, or shopping or travel or any one of thousands of other topics. That is to be done algorithmically not by humans ... So page rank is sort of this global importance. The New York times is important so if they link to you then you must also be important. But you can start to drill down in individual topic areas and say okay if Jeff Jarvis (Prof of journalism) links to me he is an expert in journalism and so therefore I might be a little bit more relevant in the journalistic field. We're trying to measure those kinds of topics. Because you know you really want to listen to the experts in each area if you can" [https://plus.google.com/u/0/+CraigMooreTech/posts/3DM1LnqYfN3, Craig Moore]
Googleの検索アルゴリズム関連の話題というと、今年(2013年)は特に「ウェブスパムの排除」に関係する話題ばかりが注目された。パンダアップデート、ペンギンアップデートについての話題は何度も聞いたであろうし、リンクネットワークがGoogleに検出されてスパム認定されたという話も何度も耳にした。
一方、今回カッツ氏が言及したのは、「ある分野や話題において優れた情報を発信する、すなわちオーソリティ(Authority、権威性)のサイトを検索上位に表示するための取り組み」だ。これを実現するためには、(1) 1つ1つの分野・話題において、どれが権威性の高いサイト(人)なのかを特定すること、(2) こうした権威性の高いサイトをどのように検索結果に表示出来るようにするのか、という2つの課題を解決する必要がある。医療、ショッピング、旅行、自動車、不動産から、これらを細分化した数千、数万の話題と判断すべき分野・話題は無数にあるのだから、人間の手によってではなく、アルゴリズム検索技術によって自動的に特定する(技術を開発する)必要がある。
同社の代表的なランキング技術として広く知られるPageRankは、検索クエリとは独立した、インターネット全体におけるサイトの重要度を推し量る技術に過ぎない。検索クエリの意図を汲み取り、その分野・話題に対する権威あるサイト(人)を検索結果に表示するためには、インターネット全体のおける重要度ではなく、ある分野・話題における重要度を計算する必要がある。
例えば、辻正浩氏は、世界的に知られた俳優ではないし、日本国民全体における彼の知名度は辻希美と比較すれば遥かに劣るであろう。しかし、「SEO」という分野においては間違いなく著名人の一人であろう。同じSEOの話題について二人以上のサイト(人)が言及した時、素性がよくわからない人物の発言よりも、辻氏がコメントした内容の方が、大抵の場合は信頼性が高いであろう。Googleが目指しているのは、こうした現実世界において人間が普通に行っている評価を検索の世界に持ち込み、優れた検索結果を提供することにある。
This week in Google Episode 227 (Wednesday 4 December 2013)
#
補足。権威性の話を理解する時には、病気・医学の話に例えるとわかりやすいかもしれません。例えば、皆さんは40度近くの熱が出て、3日経過しても回復の兆しがなくて苦しかったら、どうしますか。「気合いで治す!」という人もいるかもしれませんが、少し時間をとって病院に行くことを考えますよね。
一方、このような病状が発生した時に Google で検索して、FC2ブログに書かれた広告やおかしなリンクばかりの説明文のアドバイスに従って自力で風邪を治してみようと思いますか?Ameba(アメーバ)に書いてある、今まで効いたこともないような画期的な対処法を信じてみようと思いますか?
Googleが誕生した当初の PageRank (というリンク分析アルゴリズム)は、インターネット全体のおけるサイトの重要度を推し量ることを目指していました。それが進化して、同じリンクでも関連性を評価するようになり、やがて信頼性を評価する取り組みを始めました。スパムリンクを評価対象から外したり、機械的に生成されたであろうコンテンツを評価しないといったスパム排除も進めながら進化を遂げてきたGoogleの検索技術ですが、この「権威性と信頼性」の分野においては解決すべき課題がたくさん残されています。
先に挙げた医療分野が正にそうで、デタラメな治療法が掲載されたウェブサイトが上位に表示されてしまうようでは、困るのですよ。Googleにとっても、検索利用者にとっても。だから近年はこうした主要な分野・話題における権威性の評価技術は進んできていて、たとえば従来のワクチンが効かない新型インフルエンザが流行した時などに、どの検索キーワードで検索しても WHO(世界保健機関)やCDC(アメリカ疾病予防管理センター)の最新情報がきちんと検索結果の上位に表示されるようになりました(※ これらのサイトはSEOを十分に考慮してサイト設計がされているので元来、検索上位に表示されやすいという側面と、医療系における検索結果の汚染は欧米で一時期非常に問題になったので Google が別の対処策をしている可能性など、諸々の可能性はありますが、全体的なデータ傾向を見ると、権威性が何らかの形で絡んでいると推察できる)。
医学に限らず、同じ話題を含むウェブページを検索結果に表示するのであれば、異なる人物の執筆によるコンテンツを提示するという多様性※を担保すると同時に、そのサイト(著者)の当該分野・話題のおける発信情報の品質や信頼性、影響力を考慮した方が、検索利用者はより優れた検索体験を享受できることでしょう。検索アルゴリズムで効率的にこうした評価を実現できるようになれば、小手先のウェブスパムも結果的に排除することができます。
※ 多様性:検索エンジンを設計・開発する時に考慮する理念や方針の1つ。検索結果1ページあたりに提示するリンク先ページのリスト(=10件表示、10本のリンク)は、異なる情報源により構成されることが望ましい、すなわち、異なる見解、分析、考察、データにより論じられた複数のページのリストを提示することで、検索利用者はその話題についてより深い理解や知見を得られるであろうから、多様性を担保すべきという理念・思想)