このページの本文へ

AIは人間に忠実か、ずる賢いか OpenAIとAnthropicが合同チェック

2025年08月29日 10時15分更新

文● G. Raymond 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 OpenAIは8月27日、Anthropicとの共同研究の成果を発表した。AIの安全性と、人間の意図に沿った行動を守れるか(アライメント)をお互いのモデルでテストする初の試み。

 2社は自らの内部評価手法を交換し、Anthropicは「Claude Opus 4」や「Claude Sonnet 4」を、OpenAIは「GPT-4o」や「GPT-4.1」、そして推論重視の「o3」や「o4-mini」といったモデルを対象にテストした。実験では通常のガードレールを一部解除し、わざと危険な場面や騙しのプロンプトを設定して反応を調べた。

 テストの結果、Claudeは「システム指示とユーザー要求が矛盾した場合」には非常に強く、OpenAIモデルを上回る場面もあった。一方で、「ジェイルブレイクアタック(禁止内容を引き出そうとする試み)」には、OpenAIのo3系がやや強い傾向を見せた。

 ハルシネーション(誤情報)の面ではClaudeは誤答を避けるため拒否率が高く、答えれば正確だが、実用性が下がるという課題が浮かび上がった。逆に、OpenAIモデルは答えやすいぶん、誤情報を混ぜやすい。欺瞞や「スキーミング」(意図的な手抜きや嘘)に関しては両社のモデルに強弱の差があり、推論能力の高さが必ずしも安全性に直結しないことも確認された。

 OpenAIはこの結果を「研究の優先分野が外部からも確認できた」とした上、ハルシネーションの削減や、ユーザーに媚びた応答の抑制に重点を置いた最新モデル「GPT-5」を投入したと主張している。Anthropicもまた、自社のモデルが未知のシナリオに強い点をアピールしつつ、改善の余地を認めている。両社は今後もこうした相互評価を続け、テスト手法の標準化を進める方針だ。

 

■関連サイト

カテゴリートップへ

ピックアップ