このページの本文へ

DeNA WELQ と検索技術の課題

2016年12月01日 01時28分更新

記事提供:SEMリサーチ

  • この記事をはてなブックマークに追加
本文印刷

DeNA の WELQ の件で人と会う度に見解を求められるので、ざっと述べておきます。

デタラメの医療記事とスパム的手法によるコンテンツ量産

医学についての専門知識を持たない一般ユーザーが執筆した、正確性に疑問が残る医療系記事を大量に公開し、SEO を駆使して関連するあらゆる検索クエリで検索上位に表示させていました。病気や症状について検索するユーザーを不必要に不安にしたり、生命を危険に晒すような情報は公開すべきではないでしょう。ましてや SEO を悪用してトラフィックを稼ぎ金儲けのために使っているのであれば論外です。炎上の末に最終的にサイトを閉鎖しましたが、仮にそのまま公開が続いても、Google が(今回なら医療・健康系クエリが対象になるでしょうか)アルゴリズムを調整することになったと思います。


パクリ&リライトによるコンテンツ生成の問題

(パクリ&リライトという方法自体はビジネスとして私は支持しない、という前置きをしたうえで)医療記事の信憑性の問題とは別に、ネットで批判が続いているのがパクリ&リライトによるスパム的なコンテンツ大量生産の問題です。キュレーションメディア全体を批判する意見や、キュレーションコンテンツだから検索結果から排除せよといった意見もみかけられますが、極端すぎます。

コンテンツの生成過程の問題と、出来上がったコンテンツの有用性の問題は分けて考える必要があります。

たとえば「死ぬまでに一度は訪れてみたい世界の名所○選」や「北九州に訪れたら必ず行ってみたいお店○選」といったコンテンツは、パクリとリライトを経て作成されたものであれ、それを閲覧するユーザーにとってはそれなりに役立つことは多々あるのです。

特定条件の推薦情報というものは、本当に良いお店やスポットは誰が書いても含まれるでしょうし、こういった記事を見たいユーザーは、数多くの選択肢から、とりあえず有名なところ、知られているところに、カジュアルに絞り込みたい程度のニーズです。こうしたニーズは、誰かが書いた記事のリライト程度の内容でも十分に役に立ってしまいます。

つまり、知りたいという瞬間(Micro-moment)が発生した文脈により、そこで必要とする情報の量と質は異なります。いつも高度に専門的な情報をほしいわけではないのです。WELQ の場合はどういう場合であれ、医療情報に深刻な間違いがあれば生命に危険が及ぶので問題ですが、「近くに美味しいお店ないかな」「どこか海外に行きたいなー」程度の知りたいニーズなら、リライト程度の情報で満たされます。

ところで Google が評価する対象は、コンテンツが作成された過程ではなく、コンテンツ自体の有用性です。だから「キュレーションメディア(=パクリとリライトで完成した記事)だからすべてゴミだ」とは言えませんし、検索結果から排除することはかえってユーザーの利益を損ないかねないのです。

著作権侵害や薬事法違反の恐れがあるなど法律に抵触する場合は対処できますが、コンテンツロンダリングによって少なくとも法的にも、Google 基準をクリアした記事は対処が難しいのです。


情報アクセスのプラットフォームとして、検索各社は医療・健康情報の正確性や信頼性についてどのような取り組みを行っているの?

別記事「検索エンジン各社の医療情報検索への取り組み」で解説している通り、Google, Bing ともに健康・医療系の検索の課題は認識しており、各社それぞれ検索品質改善に努めています。Google はナレッジパネルに掲載する情報は専門家のレビューを通していますし、表示するイラストも専門家が作っています。アルゴリズム検索の Google ですら、医療・健康情報にはきちんと人間の審査を通す努力をしているのです。

現状のところ各社共通しているのは、検索結果のもっとも目立つ場所に、審査済みのコンテンツを掲載している点です。


ユーザーが任意で検索結果をカスタマイズする機能を Google が提供すればいいじゃない?

知らない人が圧倒的に多いと思いますが、Google はかつて、ユーザーが好みにあわせて検索結果をカスタマイズできる機能を提供していたことがあります。たとえば自然検索順位を変更したり、表示されるべきページを自分で追加できる SearchWiki や、ユーザーが信頼するサイトを優先的に表示する Preferred sites、同じく検索結果に非表示にできる Chrome 機能拡張 Personal Blocklist といったプロダクトです。

こうしたサービスが存在していたら、DeNAパレット運営のドメインをすべて自分の検索結果から排除したり、信用できる医療機関の情報サイトをあらかじめ登録することで、ユーザー自身が検索結果からゴミを取り除くことができたわけです。すばらしい解決策じゃないか!・・・と思うかもしれませんが、残念ながらサービスはすべて終了しています。

インターネット検索の歴史が証明している事実の1つは、世の中の大半のユーザーは検索結果のカスタマイズや装飾にまったく関心がないということです。Google 以外の会社の類似サービスも含め、ほぼ全て「利用者が想定より少なかった」趣旨の理由で閉鎖してしまいます。検索サービスは「いまほしい情報を得る場所」であって、長くそこに滞在して自分で編集する場ではないからでしょう。モバイルが主要なデバイスになった今日は、なおさら検索結果をカスタマイズする機能など求められないでしょう。

A.I.ファーストの時代、モバイル検索から、スクリーンのないハンズフリー/アシスタントとの会話による情報アクセスの時代を見据えたら、なおさら正確な回答を提供する機能は Google が技術革新で実現すべき課題だと、同社自身が考えていると思います。

関連して、検索結果の各リンクにポジティブ/ネガティブを投票するような機能をつけたらいいんじゃない?というアイデアもあるかもしれません。しかしネガティブなフィードバックを行う機能は商用インターネット検索ではまったく機能しません。ネガティブなシグナルは、第三者によって悪用されるからです。


Google 検索結果の汚染問題

Google も検索結果がスパムで汚染されているという問題は、同社が PageRank 技術を大々的に打ち出してマーケティングをした時から始まった問題です。PageRank は画期的な仕組みと認知されましたが、同時に、PageRank を操作するためのスパムリンク生産の需要を生み、そのリンクを設置するためのスパムコンテンツ量産が求められるようになりました。この時から検索結果の汚染は始まったのです。

内容が空っぽのキーワード(用語集)サイト、あらゆるキーワードでタギングページがヒットしたブログメディアの米Technorati、キュレーション(笑)メディアの NAVERまとめ、2chまとめサイト、後述する米Demand Media など枚挙に遑がありません。

Google は当時からスパムとそれによる検索品質の低下を問題視しており、アルゴリズムの改良や優れた検索アルゴリズム技術の開発に取り組んで来ました。スパムリンクが特に増加した2004年以後は、公式ブログで繰り返し人工リンクに対する意見を表明したり、実際に不正なリンクで検索順位を操作するサイトの順位を手動で調整するといった対策をしてきました。

最近では 2010年の Demand Media によるコンテンツファーム問題が注目されたときに、欧米メディアを中心に検索結果の汚染が指摘されました。一部のジャーナリストが Google を激しく批判していましたが、それに対する回答がパンダアップデートでした。

クラウドソーシングを活用して、人間の手による編集(笑)を経たコンテンツが検索結果を占拠している問題は、日本に限ったお話ではありません。英語圏でも、どうでもいいハウツー記事を大量生産したスパムメディアが一部のキーフレーズで検索結果を占拠しています。こうした状況を踏まえて Google も対応を検討していると思います。

ただし、人間の手を経由してキュレート(笑)されたコンテンツをただ評価を下げることは先述した理由により合理的ではありません。「人間の目で見て役立つ、役立たない」をアルゴリズムで自動的に判定するのも難しいでしょう。WELQ の問題は、それがまだ無理だということを証明しているわけですし。

コンテンツの評判や信憑性を推し量る方法として、執筆者の評価を利用するというアプローチはあります。執筆者の専門性や評判の手がかりがあれば、当該人物が書いた情報を評価する際の参考になるからです。Google はかつて Authorship の仕組みを展開してそれを実現したいと考えていたのですが、それを支えるソーシャルグラフのデータとなる Google+ が廃墟と化しておりプロジェクトを進めようがありません。


クラウドソーシングがスパムを支える構造の問題

悪用されたくないので曖昧な表現に留めさせて頂きたいのですが、クラウドソーシングのサイトで案件を見ていると、業界関係者ならニヤリとするような、検索エンジンスパム目的の仕事依頼が見つかります。

Google はクラウドソーシングを活用したスパムに極めて脆弱です。クラウドソーシングは、不特定多数のユーザーに日時をずらして特定のタスクを依頼することで、機械的な特徴を排除できる利点があるからです。

純粋な一般検索ユーザーと、特定企業の依頼を受けて検索するユーザーを見分けることは簡単ではありません。Google はどうやって解決していくのでしょうか? 

Web Professionalトップへ

WebProfessional 新着記事