攻撃シナリオの作成、防御策の立案や評価を自動化、「マルチAIエージェントセキュリティ技術」発表
異なるAIがサイバー攻撃/防御/評価を分担して実行、最適な防御策に導く―富士通の新技術
2024年12月17日 07時30分更新
不正なプロンプトによるLLM攻撃を防ぐ「生成AIセキュリティ強化技術」も発表
もうひとつ発表されたのが、イスラエルのベングリオン大学との共同開発による「生成AIセキュリティ強化技術」だ。具体的には、生成AI(LLM:大規模言語モデル)のセキュリティ耐性を自動チェックする「LLM脆弱性スキャナー」、攻撃を自動的に防御/緩和する「LLMガードレール」により構成される。
生成AIを組み込んだシステムが急速に普及する一方で、生成AIに不正な命令(プロンプト)を与えて意図しない動作をさせる「プロンプトインジェクション」などの新たな攻撃手法も登場している。こうした脆弱性を発見するのがLLM脆弱性スキャナー、発見された脆弱性への対策を適用するのがLLMガードレールだ。ここでは前述した3種類のAIエージェントが活用される。
LLM脆弱性スキャナーでは、同社が蓄積した3500以上のLLM脆弱性データベースに基づいて、攻撃AIエージェントが「攻撃プロンプト」を作成。これを生成AIシステムに送信し、得られた回答をテストAIエージェントが評価する。こうした仕組みにより、人手によるテストでは検出が困難なLLMの脆弱性を、高精度に検出できるという。また、脆弱性のチェック結果はダッシュボードで可視化され、セキュリティの専門家ではない開発者であっても、どのようなリスクがあるのかを容易に確認できる。
またLLMガードレールは、LLM脆弱性スキャナーが検出した脆弱性の情報に基づき、LLMが不適切な回答をしうる攻撃プロンプトを拒絶する「ガード規則」を自動作成することで、リスクを抑止する。
この生成AIセキュリティ強化技術については、2024年12月からCohereと技術実証を開始し、将来的には富士通が開発するLLM「Takane」へも展開する方針だ。