国立情報学研究所(NII)とヤフー(株)は6日、東京・竹橋の学術総合センター(国立情報学研究所)にプレス関係者を集め、情報検索や質問応答などの検索技術の研究を進めるために、ヤフーが運営するQ&Aサービス“Yahoo!知恵袋”からデータ提供を受けることを発表した。提供されるデータは、Yahoo!知恵袋に2004年4月7日~2005年10月31日までに書き込まれた質問と回答が対象で、個人を特定できる情報などを削除した質問約311件と回答約1347万件。これらは投稿者などの個人情報(Yahoo! ID)が暗号化された形で、NIIに提供され、技術研究のためだけに利用される。
なぜYahoo!知恵袋から情報提供を受けるのか?
Yahoo!知恵袋からデータ提供を受けた理由について、NIIの副所長の東倉洋一(とうくらよういち)氏は、インターネット/ウェブの普及や利用者発信(いわゆる“CGM”)により情報が爆発的に増えていること、書き言葉より話し言葉に近いいわゆる“ウェブ言語”を対象にした情報検索の研究が必要とされながらも、現状ではそうした情報の入手が困難であること(個人情報を含むため非公開扱いとされる、公開されている掲示板などから研究者が個人的に収集しても、論文としてまとめた場合に著作権法などの都合により解析元のデータを明らかにできない、など)を挙げた。
また、コンテンツ科学研究系 主幹の大山敬三(おおやまけいぞう)氏は、「WWWC(World Wide Web Consortium、ウェブ利用の世界的な研究機関)で提出される学術論文の多くは、すでにクエリーログ(検索キーワード)とその結果がないと一流の論文として扱われない。日本の論文ではそれが発表できないという現状があり、そこに危機感を抱いている。ウェブサイトの検索技術では、すでにキャッチアップするのは難しいかもしれないが、Q&Aではこれから対抗できる技術になると期待している」と述べ、研究材料として大いに期待感を述べた。
Yahoo!知恵袋の利用者の個人情報は?
今回提供元として手を挙げたヤフーのYahoo!知恵袋は、2004年4月のサービス開始以来、「利用規約や、書き込み時に表示されるガイドラインに、研究目的での情報提供を行なうことがあることを明記してきた。さらに少し遅れて、Yahoo!知恵袋のトップページにも周知徹底を目的として明記している」(ヤフーの岡本 真氏)として、利用者に情報提供の可能性を明言しているため、法律上の問題をクリアした形で情報提供できるという(あくまでも書き込まれた情報の著作権は執筆者に帰属するが、利用権についてはヤフー側にあるという解釈)。
ただし、提供される情報には質問と回答の文章のほかに登録ユーザーを特定できる情報(Yahoo! ID)が含まれている。これは「ヤフー側もNII側も復号できない形での暗号化を行なった上で提供する。また、質問や回答など書き込まれた情報そのものに個人情報が含まれるという可能性については、24時間パトロールと通報体制によって、発見次第、逐次削除している」と述べ、NIIに提供された情報から個人情報が漏洩する(個人が特定される)心配はない、と説明する。
受けたデータをどう使うのか? 今後は?
NII側では、提供された情報を元に、質問文とそれに対する適切な回答の組み合わせから、既存の検索手法の評価や新しい検索手法の研究、質問応答形式の検索手法の開発、複数の回答を要約する技術の研究、などを行なうとしている。このデータや研究成果は、15カ国102の研究グループが参加する、情報検索・アクセス技術の比較検証の研究基盤“NTCIR(エンティサイル)”で発表され、参加する研究所/研究者が同じデータベースを元にした技術の検証や開発を進める。一方、ヤフー側は今回の情報提供を「社会貢献活動の一環」としており、研究成果を優先的に受け取るなどのメリットはないという。
今後は、引き続きヤフーからさらなるデータの提供(2005年10月31日以降はYahoo!知恵袋のシステムが変更されたため、今回のデータ提供の対象外となった)を求めるとともに、ほかのサービスプロバイダーなどにもデータ提供の協力を求めていきたい、としている。