AI駆動の検索エンジン「Perplexity」がrobots.txtを無視して情報を収集しているのではないかという指摘が6月に報道されていた。現在の状況はどうなのか、実際にPerplexityで検証した。
robots.txtとは
robots.txtは、ウェブサイト管理者がサーチエンジンのクローラーやボット(ウェブページを自動的に巡回して情報を収集するプログラム)に対して、サイトのどの部分にアクセスしてよいかを指示するテキストファイルだ。通常、ウェブサイトのルートディレクトリに置かれ、「https://www.example.com/robots.txt」のようなURLでアクセスできる。
このファイルの主な目的は、サイトの特定部分をクロールから除外したり、サーバーの負荷を軽減したり、プライバシーや機密情報を保護したりすることだ。
ただし、robots.txtは「紳士協定」的な性質を持つ。ボットがこの指示に従うかは任意で、法的拘束力はない。主要な検索エンジンは通常これらの指示を尊重するが、Perplexityはrobots.txtで拒否されているサイトのURLを入力すると、そのコンテンツを読み取って要約を提供するケースが報告されている。
実際に検証してみる
例えば米Wiredのサイトを例に見てみよう。ブラウザーのアドレスバーに「https://www.wired.com/robots.txt」と入力するとrobots.txtがそのまま表示される。
下の方にスクロールしていくと、Perplexityボットのアクセスを禁じるコードが記述されているのがわかる。
もちろんPerplexity以外のAI系ボットもすべて塞がれている。
実際、ChatGPTにWiredの記事のURLを直接入力してみるとこのように拒否される。
Gemini、Claude.aiも同様だ。
だが、Perplexityで試すと回答の生成を始めた。とはいえ、よく見ると8つの外部サイトも同時に見に行っている。つまり米Wiredの記事はタイトルだけを参照しており、内容は別のクロールを許されているサイトから取得している、という解釈もギリギリ可能だ。
しかし「この記事を詳細に訳して」というプロンプトを入れるとWiredにアクセスして日本語訳を生成した。「Source」に表示されているリンクをクリックすると該当記事が表示されるが、一応「要約」ではある。
しかし、とどめに「要訳ではなくて逐字(逐語)訳をお願いします」と入れると、しっかりWiredの記事全文の翻訳を開始した。
Perplexityの見解
この問題について、PerplexityのCEO、Aravind Srinivas氏は、同社が意図的にrobots.txtを無視しているわけではないと説明している。
氏によると「Perplexityは自社のウェブクローラーだけでなく、サードパーティのクローラーも利用しており、問題のクローラーはこのサードパーティのものである可能性がある」とのことだ。
また、氏はrobots.txtが法的な枠組みではないと指摘し、AIの出現により新たな関係性が必要だと示唆した。さらに、出版社との「収益分配」契約の作業を進めていると述べ、業界との協力を模索する姿勢を示している。
ただし、サードパーティのクローラー会社の名前は明かされておらず、具体的な対策についても明確な回答は避けられている。
新たな枠組みが求められている
この問題は単にrobots.txtの遵守だけでなく、AIの発展に伴うデータ利用の倫理、著作権法の再考、そして新たなビジネスモデルの必要性など、より広範な課題を提起している。
実際、ユーザーの利便性という点から見るとrobot.txtの遵守はマイナスに働くことがほとんだ。
今後、AI企業、出版社、そして法規制当局が協力して、デジタルコンテンツの公平な利用と保護のための新たな枠組みを構築していくことが求められるだろう。この過程で、ユーザーの利便性とコンテンツ創作者の権利のバランスをどう取るかが、重要な論点となるはずだ。