このページの本文へ

毒をもって毒を制す——LLMの有害行動を防ぐ意外な新手法

2025年08月06日 06時59分更新

文● Grace Huckins

  • この記事をはてなブックマークに追加
  • 本文印刷

大規模言語モデル(LLM)は時に、悪意のある返答を返すことがある。アンソロピック(Anthropic)が発見したのは「毒をもって毒を制す」手法だった。訓練中に悪意や追従性を意図的に活性化させることで、逆にモデルがそれらの特性を獲得するのを阻止できるという。

カテゴリートップへ

  • 角川アスキー総合研究所

MSIが変える、未来のクリエイターを育てる教育環境

アスキー・ビジネスセレクション

ピックアップ