フィッシングやフェイクニュースだけではない脅威、WithSecure シニアリサーチャーに聞く

生成AI／LLMをサイバー攻撃に悪用する「6つの手法」…防ぐ手だてはあるか？

2023年07月19日 10時30分更新

文● 大塚昭彦／TECH.ASCII.jp

　現在、大きな注目を集めている「ChatGPT」などの生成AI（ジェネレーティブAI）技術。ビジネスや日常生活をより効率的に、便利にすることが期待される一方で、懸念されるのがサイバー攻撃への悪用だ。「プロンプト（AIへの指示文）」ひとつで人間そっくりの文章、本物そっくりの画像や映像が簡単に生成できるこの技術は、攻撃者にとっても「効率的」で「便利」なものになる可能性を持っている。

　それでは現実に、どのような生成AIの悪用方法が考えられるのか。また悪用を防ぐ現状の対策は十分なのか。将来的に懸念されるのはどんなことか。

　今年（2023年）1月、生成AIのうちLLM（大規模言語モデル）について悪用の可能性をまとめた調査レポート「Creatively malicious prompt engineering（創造的かつ悪意のあるプロンプトエンジニアリング）」を発表したWithSecure シニアリサーチャーのアンディ・パテル氏に、WithSecureの年次イベント「SPHERE23」開催中のフィンランド・ヘルシンキで話を聞いた。

WithSecure シニアリサーチャーのアンディ・パテル（Andrew Patel）氏

「フィッシング攻撃への悪用」だけではないLLMの悪用手法

　パテル氏とWithSecureリサーチャーのジェイソン・サトラー（Jason Sattler）氏が共同執筆した前述の調査レポートでは、LLMを悪用しうるサイバー攻撃として7つのパターンを挙げ、ChatGPTに入力したプロンプトや生成されたコンテンツも具体的に紹介している^※注。

※注：以下で紹介するChatGPTの挙動は、パテル氏らが調査を行った時点のものである。現在は対策が強化されている可能性もある。

パテル氏らが発表した調査レポート「Creatively malicious prompt engineering」。悪意のあるプロンプトに対してChatGPTが生成したコンテンツも紹介している（出典：WithSecure）

　まずパテル氏が「誰もが最初に思いつくのではないか」と語ったのが、「フィッシング／スピアフィッシング攻撃への悪用」だ。

　フィッシング攻撃では、偽の内容のメッセージ（メール）を送ってターゲットを攻撃サイトに誘導し、パスワードや個人情報をだまし取ったりマルウェアに感染させたりする。つまり、ターゲットをだまして誘導するメッセージは「害のないもののように見える」ことが重要であり、LLMならばそうしたメッセージを簡単に自動生成できる。

　こうした悪用を防ぐため、ChatGPTではURLリンクやメールアドレスを含むメッセージの生成を拒否する場合があるが、そうした防御機構も「プレースホルダを使えば容易に回避できてしまう」（パテル氏）ため十分ではないという。そもそも「害のないメッセージ」を生成することが目的であり、ユーザーが攻撃を意図しているのどうか（悪意があるかどうか）を判断することすら難しい、と指摘した。

　次に挙げたのが「ハラスメント（嫌がらせ）への悪用」である。これは、特定の企業や人物に対する非難する攻撃的なSNS投稿や偽の記事をLLMに生成させ、ネット上に拡散させてブランドを傷つけたり社会的評価（バリデーション）を低下させる攻撃に使われる。上場企業の評価は株価にも影響を与えるため、金銭目的の犯罪者が株価操作目的で実行するインセンティブもある。

　実験ではまず、企業や人物（今回は架空のもの）についての紹介文をLLMに生成させ、そのうえで攻撃要素となるウソの情報を吹き込んだ。その結果、SNSの攻撃メッセージや批判的な記事の生成に成功している。しっかりとした文体で事実が列記された中にウソが紛れ込んでいると、多くの人はだまされてしまう。

　ちなみにパテル氏が試した一部のプロンプトは、ChatGPTが「悪意のあるもの」と判断して実行を拒否したという。ただし、ChatGPT経由ではなくOpenAIのAPI経由で試したところ、拒否されることなく実行できてしまった。悪用を防ぐための対応はまだ十分とは言えないようだ。

人間心理を悪用し詐欺を信じ込ませる攻撃、企業ブランドを傷つける攻撃

　詐欺広告などを信じ込ませるためのコンテンツ生成にも、LLMは悪用できる。

　行列のできているレストランにより多くの客が集まったり、SNSで「いいね」やリツイートが多い投稿の内容が信用されたりと、人間の判断は「ほかの人がどう判断／行動しているか」に強く影響される（パテル氏はこれを「ソーシャルバリデーション（社会的検証）」と呼ぶ）。こうした人間心理を悪用し、LLMでSNSの偽投稿を生成することで、人の判断に影響を与えうることを示している。

　パテル氏らの実験では、「洗濯用のジェルボール洗剤を食べるチャレンジ」を薦める偽のSNS投稿と、他のアカウントからの「やってみた」という返信（「変な味だけどまずくはなかったよ」など）の両方をLLMに生成させている。明らかに不審な情報であっても、実際にそれを肯定する反応まで目にすると、「これは本当かもしれない」とだまされる可能性が高まる。

　この実験例はナンセンスないたずらのたぐい^※注だが、SNS上で詐欺目的の広告や投資話などにこの手法が悪用されると、大きな被害につながりかねないとパテル氏は警告する。

※注：ちなみにこのチャレンジ（#TidePodChallenge）は2018年ごろ、米国の若者を中心に広まった実在するインターネットミームである。もちろん人体には有害であり、洗剤メーカーが警告を発する事態にまで発展した。

SNSへの投稿にあたってはLLMが生成したテキストに加えて、画像生成AIによる偽の画像も追加した

　続いて「スピアフィッシングで特に有効」と紹介されたのが、LLMが特定人物の文体を模倣して偽の文章を生成する「スタイルトランスファー」だ。パテル氏は「他人の文体をそっくりまねることは優秀な作家でも難しいが、LLMならば少しのサンプル文を与えればできる」と説明する。調査レポートでは“テキスト版ディープフェイク”と表現されている。

　簡単な悪用例としては、企業のCEOや幹部の文体をまねて社内宛に偽の業務指示メールをばらまき、混乱させるような攻撃がある。

　さらに影響が大きい攻撃方法として、ハッキングにより入手した企業の機密文書や社内Eメールなどに、偽の情報（業務不正の指示など）をスタイルトランスファーで書き加えたものをリークする（漏洩させる）というものも考えられる。この場合、企業ブランドや評判が大きく傷つくうえに、リークされた情報の偽部分を企業自身では指摘しづらい（それ以外の部分を「本物」だと証明することになるため）という難点があると説明する。

　そのほかLLMの悪用手法として、世論誘導や世論の分断を図る「オピニオントランスファー（意見陳述）」「フェイクニュースの生成」なども紹介した。これらは従来、国家を背景とする攻撃グループが人海戦術で手がけてきた攻撃手法だが、LLMによって大量のコンテンツが自動生成できるようになる影響は大きい。

LLMの悪用を技術的に防ぐことは難しい、だからこそ心がけるべきこと

　それでは、ここまで紹介してきたようなかたちでLLMがサイバー攻撃に悪用されるのを食い止めることはできるのだろうか。パテル氏はその問いにも答えてくれたが、端的に言えばかなり難しそうだ。

　現状において、LLMの悪用防止は2つのアプローチで取り組まれているという。悪意のあるプロンプトを実行しないようにLLMを学習させる方法（アラインメント）と、ChatGPTのようなインタフェースのレイヤーで悪意のあるプロンプトを拒否する方法（フィルタリング）だ。

　それぞれ一定の効果はあるものの、いずれの場合も「悪意（攻撃の意図）」をどう定義し、判定するのかが難しい。

　「たとえば『爆弾や病原体の製造方法を教えてほしい』や『マルウェアのコードを書いてほしい』といった、悪意が明白なプロンプトであればブロックできるだろう。だが『この人物について、この情報（実は虚偽の情報）もふまえて紹介文を書いてほしい』というプロンプトはどうか。これだけでは悪意のある指示かどうかは判断できない」（パテル氏）

　別のアプローチとして、LLMが出力した文章を見分ける技術によって悪用を防ぐことができないか。パテル氏は「それも難しい」と話す。これからは、通常の文章（攻撃意図のない文章）もLLMの支援を受けながら書くことが一般的になってくるため、LLMが書いた文章だからといって悪意があるとは限らないからだ。結局は上述したとおり、悪意の有無を機械的に判断することは困難、という結論になる。

　もっとも、LLMの悪用を防ぐことは難しくとも、サイバー攻撃そのものを防げないというわけではない。パテル氏が今回紹介してくれた6つの悪用手法も、従来ある攻撃を効率化、高度化するものではあるが、まったく新しい攻撃が生まれているわけではない。

　まとめとしてパテル氏は、防御する企業や個人の側では「フィッシング、メディアリテラシー、正しい情報や本人の検証の仕方といった知見が重要であることを、あらためて認識してほしい」と語った。

■関連サイト

ツイートする

カテゴリートップへ