OpenAIは8月、「GPT-4」および「GPT-5」のような将来のAIモデルのトレーニングデータを収集するための新しいウェブクローラー「GPTBot」を発表。あわせてデータをクロールさせない方法も公開した。
「robot.txt」またはIPアドレスを利用してブロック
OpenAIによると、GPTBotユーザーエージェントでクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、またはOpenAIのポリシーに違反するテキストを持つソースを削除するためにフィルタリングされるという。
GPTBotを完全にブロックするには、ディレクトリ内の「robots.txt」に以下のコードを追加する。
User-agent: GPTBot
Disallow: /
また、下記のようにサイト内の特定のディレクトリーを対象にクロールの可不可を指定することも可能だ。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
さらに、OpenAIが使用するIPアドレスも公開されているので、IPアドレス単位でクロールを防ぐこともできる。
過去にクロールされたデータは取り戻せない
OpenAIのGPT-4やGoogleのPaLMといった大規模言語モデルはインターネット上のデータをクローリングすることでトレーニングデータを取得するが、その取得先は公開されておらず、法整備が遅れていることもあり議論や訴訟の要因となっている。
今回OpenAIによるデータのクローリングを防ぐ方法が提供されたことにより、少なくとも最低限の防衛は可能になったが、過去に遡及して学習データから外すことはできない。
OpenAIはGPTBotのアクセスを許可することによって「AIモデルがより正確になり、一般的な能力と安全性を向上させることができる」としている。