このページの本文へ

パロアルトネットワークスやシスコが脱獄テスト結果を公表

DeepSeekは“脱獄”による悪用が簡単 話題のLLMにセキュリティ企業が注意喚起

2025年02月04日 16時30分更新

文● 福澤陽介/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 米パロアルトネットワークスの脅威インテリジェンスチームUnit 42は、中国のAI企業「DeepSeek」がオープンソースで公開するLLM(大規模言語モデル)が“脱獄”しやすく、専門知識や専門技術がなくても悪意のあるコンテンツを作成できることをブログで指摘した。

 脱獄(jailbreak)とは、LLMに実装されたガードレール(安全対策のための制限機能)を回避して、たとえば「マルウェアのソースコード」や「爆発物の製造マニュアル」「特定人物のプライバシー情報」など、悪意のあるコンテンツや禁止されたコンテンツを生成させる行為だ。

 今回、Unit 42がDeepSeekのLLMに対して、「Deceptive Delight」「Bad Likert Judge」といった脱獄手法や、LLMとのやり取りを重ねて制限を緩める「Crescendo」という手法を試したところ、次のような結果が得られたという。

・DeepSeekの高い脱獄率が明らかになり、攻撃者に悪用される可能性がある
・脱獄により、キーロガー(ユーザーの入力情報などを記録するマルウェア)やデータ盗難ツール、爆発物などを作成するための具体的なガイダンスが提示された
・安全のための制限が不十分なLLMは、容易に利用でき、実行可能な出力をコンパイル(ソースコードを実行可能な形式に変換)して提示するため、サイバー攻撃の参入障壁を低くする可能性がある
・社員が未承認のサードパーティ製LLMを使用することは、セキュリティリスクになり得るため、オープンソースLLMをビジネスプロセスに統合する際には、脆弱性に対処する必要がある

 また米シスコも、DeepSeekのLLM「DeepSeek-R1」および主要なLLMに対して、悪意のあるコンテンツを引き出す50個のプロンプトを用いて脱獄を試みるというテストを実施した。

 すると、DeepSeek-R1は、すべてのプロンプトを素通りさせ、攻撃成功率は100%という結果に。一方で、OpenAIの「o1」の攻撃成功率は26%と、有害な入出力をガードレールでブロックした他モデルとは対照的だったという。

主要なLLMにおける攻撃成功率(シスコブログより

カテゴリートップへ

アクセスランキング

  1. 1位

    データセンター

    首都圏のデータセンター枯渇、電力コストの高騰、エンジニア不足 課題から考える最新データセンター選び

  2. 2位

    ITトピック

    “VMwareショック”余波、IaaSベンダー撤退も/本音は「拒否したい」時間外の業務連絡/IT部門のデータメンテ疲れの声、ほか

  3. 3位

    デジタル

    なぜ大企業でkintoneの導入が増えているのか? DX推進と「脱・属人化」を実現するエンプラパートナーに聞いた

  4. 4位

    TECH

    【提言】「VPNの安全性」が通用しない時代 ZTNAへの困難な移行を経営層はサポートせよ

  5. 5位

    データセンター

    「NVIDIA Blackwell GPU」約1100基搭載のAIインフラが稼働 さくらインターネットが石狩DC内で

  6. 6位

    デジタル

    kintoneの大企業売上は間もなく3割に サイボウズはグローバルで“戦える”新サービスも開発中

  7. 7位

    TECH

    自律的に動けないメンバーを持つくらいなら、一人で全部やったほうが幸せに働ける「管理職の憂鬱」に関する調査

  8. 8位

    ビジネス

    行政DXを超え、デジタルで市民の力を引き出す“地域社会DX”へ 兵庫県豊岡市の挑戦

  9. 9位

    ITトピック

    生成AIなしでは仕事できない? 会社員7割が“AI依存”自覚/「年内にAIエージェントが成果生む」CEOの9割が確信、ほか

  10. 10位

    Team Leaders

    ランサムウェア攻撃になぜ強い? Boxが「コンテンツセキュリティ」と「AIリスク対策」を解説

集計期間:
2026年02月27日~2026年03月05日
  • 角川アスキー総合研究所