パロアルトネットワークスやシスコが脱獄テスト結果を公表

DeepSeekは“脱獄”による悪用が簡単　話題のLLMにセキュリティ企業が注意喚起

2025年02月04日 16時30分更新

文● 福澤陽介／TECH.ASCII.jp

　米パロアルトネットワークスの脅威インテリジェンスチームUnit 42は、中国のAI企業「DeepSeek」がオープンソースで公開するLLM（大規模言語モデル）が“脱獄”しやすく、専門知識や専門技術がなくても悪意のあるコンテンツを作成できることをブログで指摘した。

パロアルトネットワークスのブログより

　脱獄（jailbreak）とは、LLMに実装されたガードレール（安全対策のための制限機能）を回避して、たとえば「マルウェアのソースコード」や「爆発物の製造マニュアル」「特定人物のプライバシー情報」など、悪意のあるコンテンツや禁止されたコンテンツを生成させる行為だ。

　今回、Unit 42がDeepSeekのLLMに対して、「Deceptive Delight」「Bad Likert Judge」といった脱獄手法や、LLMとのやり取りを重ねて制限を緩める「Crescendo」という手法を試したところ、次のような結果が得られたという。

・DeepSeekの高い脱獄率が明らかになり、攻撃者に悪用される可能性がある
・脱獄により、キーロガー（ユーザーの入力情報などを記録するマルウェア）やデータ盗難ツール、爆発物などを作成するための具体的なガイダンスが提示された
・安全のための制限が不十分なLLMは、容易に利用でき、実行可能な出力をコンパイル（ソースコードを実行可能な形式に変換）して提示するため、サイバー攻撃の参入障壁を低くする可能性がある
・社員が未承認のサードパーティ製LLMを使用することは、セキュリティリスクになり得るため、オープンソースLLMをビジネスプロセスに統合する際には、脆弱性に対処する必要がある

　また米シスコも、DeepSeekのLLM「DeepSeek-R1」および主要なLLMに対して、悪意のあるコンテンツを引き出す50個のプロンプトを用いて脱獄を試みるというテストを実施した。

　すると、DeepSeek-R1は、すべてのプロンプトを素通りさせ、攻撃成功率は100%という結果に。一方で、OpenAIの「o1」の攻撃成功率は26%と、有害な入出力をガードレールでブロックした他モデルとは対照的だったという。