このページの本文へ

パロアルトネットワークスやシスコが脱獄テスト結果を公表

DeepSeekは“脱獄”による悪用が簡単 話題のLLMにセキュリティ企業が注意喚起

2025年02月04日 16時30分更新

文● 福澤陽介/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 米パロアルトネットワークスの脅威インテリジェンスチームUnit 42は、中国のAI企業「DeepSeek」がオープンソースで公開するLLM(大規模言語モデル)が“脱獄”しやすく、専門知識や専門技術がなくても悪意のあるコンテンツを作成できることをブログで指摘した。

 脱獄(jailbreak)とは、LLMに実装されたガードレール(安全対策のための制限機能)を回避して、たとえば「マルウェアのソースコード」や「爆発物の製造マニュアル」「特定人物のプライバシー情報」など、悪意のあるコンテンツや禁止されたコンテンツを生成させる行為だ。

 今回、Unit 42がDeepSeekのLLMに対して、「Deceptive Delight」「Bad Likert Judge」といった脱獄手法や、LLMとのやり取りを重ねて制限を緩める「Crescendo」という手法を試したところ、次のような結果が得られたという。

・DeepSeekの高い脱獄率が明らかになり、攻撃者に悪用される可能性がある
・脱獄により、キーロガー(ユーザーの入力情報などを記録するマルウェア)やデータ盗難ツール、爆発物などを作成するための具体的なガイダンスが提示された
・安全のための制限が不十分なLLMは、容易に利用でき、実行可能な出力をコンパイル(ソースコードを実行可能な形式に変換)して提示するため、サイバー攻撃の参入障壁を低くする可能性がある
・社員が未承認のサードパーティ製LLMを使用することは、セキュリティリスクになり得るため、オープンソースLLMをビジネスプロセスに統合する際には、脆弱性に対処する必要がある

 また米シスコも、DeepSeekのLLM「DeepSeek-R1」および主要なLLMに対して、悪意のあるコンテンツを引き出す50個のプロンプトを用いて脱獄を試みるというテストを実施した。

 すると、DeepSeek-R1は、すべてのプロンプトを素通りさせ、攻撃成功率は100%という結果に。一方で、OpenAIの「o1」の攻撃成功率は26%と、有害な入出力をガードレールでブロックした他モデルとは対照的だったという。

主要なLLMにおける攻撃成功率(シスコブログより

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

アクセスランキング

  1. 1位

    ビジネス・開発

    いますぐ捨てたいITサービスは? AI推しにそろそろ飽きてません? 情シスさんのホンネを「ゆるっとナイト」で聞いた

  2. 2位

    ITトピック

    「AI導入で人員を減らしても収益は増えない」その理由/「専任情シス不在」中小企業の3社に2社/ユーザーアカウント流出が加速、ほか

  3. 3位

    エンタープライズ

    基盤も古いし、コードも酷い! そんなクエストにGitHub Copilotで試行錯誤しまくった「みんな」こそ最高

  4. 4位

    Team Leaders

    Power AutomateでSharePoint APIを使う ― SPOリストを自動作成するフローを作ろう

  5. 5位

    sponsored

    完全自動運転の実現へ、チューリングが開発基盤にGMO GPUクラウドを選んだ理由

  6. 6位

    ソフトウェア・仮想化

    日本の自治体がみんな使っている「ManageEngine」 IT運用のすべての課題解決を目指す

  7. 7位

    クラウド

    「すでに開発コードの4分の3はAI生成」 Google Cloud CEO、エージェント時代の戦略を語る

  8. 8位

    スマホ

    ここまで便利なのか! 子どもの居場所を90秒間隔で教えてくれる、安心の見守りガジェットがすごいぞ

  9. 9位

    ビジネス・開発

    「粗悪記事」「ゼロクリック」「搾取」からクリエイターをどう守るか? AIに強いnoteが挑む創作エコシステム

  10. 10位

    ソフトウェア・仮想化

    AIエージェントを野放しにしない ― ServiceNowは“AI司令塔”で自律とガバナンスを両立

集計期間:
2026年05月11日~2026年05月17日
  • 角川アスキー総合研究所