画像クレジット:Stephanie Arnett/MITTR | British Library (L)
チャットGPTや大規模言語モデルは、その能力の高さで世間を驚かせているが、セキュリティ面では問題を抱えている。これまで以上に簡単に、個人情報の窃取などができてしまうのだ。
この記事は米国版ニュースレターを一部再編集したものです。
イーロン・マスクらテック業界の大物たちは3月末、人工知能(AI)が人類の「存在にかかわるリスク」をもたらすと主張する公開書簡に署名した。AI関係者はこの公開書簡をめぐって活発に議論を交わした。賛同者たちは、「GPT-4」よりも強力なテクノロジーの開発を6カ月間停止するよう、AI開発企業や団体に呼びかけた。
この書簡に対しては、「将来起こるかもしれないリスクを心配してばかりいると、AIが今日すでに引き起こしている現実の害悪から目をそらすことになる」との批判がある。私はその意見に同意する。バイアスのあるシステムが人々の生活にかかわる判断を下し、人々を貧困から抜け出せないようにしたり、不当逮捕を許したりする。AIが生成したトラウマになりそうなコンテンツの山をふるいにかけているのは、人間のコンテンツ・モデレーターだ。彼らがこの作業で得られる賃金は、1日わずか2ドルに過ぎない。そして、大規模言語モデルは膨大な計算資源を必要とする。つまり、大量の電力を消費し、莫大な量の温暖化ガスを排出し続けることになる。
だが、昨今続々と登場している数々のAIシステムは、近い将来、まったく別の形の大混乱を引き起こすだろう。
大規模言語モデルの悪用につながりかねない方法を整理した記事を先日公開した。残念な知らせだが、大規模言語モデルの悪用は極めて簡単で、プログラミングのスキルも必要ない。しかも現在判明している解決策はない。例えば、間接プロンプト・インジェクションと呼ばれる攻撃方法では、Webサイトや電子メールの本文を巧妙にそれらしく作り、その中に人間の目では見分けられない白色の文字(背景が白色の場合)を隠しておくだけでいい。一度仕込んでしまえば、AIモデルに対して思うままに命令ができる。
テック企業は、コードを生成するプログラムから、電子メールやカレンダーを整理するバーチャル・アシスタントまで、あらゆる種類のプロダクトにこのような深刻な欠陥のある大規模言語モデルを組み込んでいる。
そのせいで私たちは、不具合が残り、スパムがあふれ、詐欺が横行するAI駆動インターネットの世界へと向かわされているのだ。
スイス連邦工科大学チューリッヒ校コンピューター科学部の助教授でコンピューター・セキュリテイ、プライバシー、機械学習を専門とするフロリアン・トラメールによると、言語モデルにインターネットからのデータ取得を許容しているせいで、ハッカーはそれを「スパムとフィッシングに向けた超強力エンジン」として転用できてしまうのだという。
その仕組みを説明しよう。まず、攻撃者はAI搭載のバーチャル・アシスタントが開くメールの本文に、害を及ぼすプロンプトを隠す。攻撃者のプロンプトは、攻撃対象者の連絡先リストや電子メールを攻撃者に送信させたり、攻撃対象者の連絡先リストの全員に攻撃を広めるようバーチャル・アシスタントに要求する。昨今のスパムや詐欺メールは、騙されてリンクをクリックしない限り何も起こらないが、この新手の攻撃は人間の目には見えないまま、自動的に実行されてしまう。
バーチャル・アシスタントが銀行や健康データなどの機密情報にアクセスできる状態になっていると、大きな被害につながる。AI搭載のバーチャル・アシスタントの挙動を変えられるということは、ユーザーは、本物そっくりに見えて実は攻撃者が仕組んだ支払取引を承認してしまう可能性があるということだ。
大規模言語モデルが組み込まれたブラウザーを使ったネットサーフィンにもリスクがありそうだ。あるテストでは、研究者が「ビング(Bing)」のチャットボットを使い、マイクロソフトの社員がマイクロソフト製品を割引価格で販売するかのようなテキストを生成することに成功した。これで狙いどおりクレジットカード情報の抜き取りが可能になる。ビングのユーザーは、プロンプトが隠されたWebサイトにアクセスするだけで詐欺被害に遭う可能性があるのだ。
大規模言語モデルには、実際に運用が始まる前に侵入されるリスクさえある。大規模言語モデルはインターネットからかき集めた膨大なデータで学習する。そのデータにはソフトウェアのさまざまな種類のバグも入っており、オープンAI(OpenAI)は痛い目に遭わされた。オープンソースのデータセットから取得してしまったバグによってボットのユーザーのチャット履歴が流出し始めたため、同社はチャットGPTを一時的に停止せざるを得なくなった。そのバグ自体は偶発的なものだったようだが、データセットのバグが引き起こす問題の深刻さがよくわかる事例だ。
トラメール助教授のチームは、自分で植え付けたコンテンツでデータセットを安価で簡単に「汚染」できることを発見した。その汚染されたデータはそれから、大規模言語モデルに収集された。
データセット中に現れる回数が多いほど、大規模言語モデルにおける関連付けは強くなる。訓練データ全体にくまなく悪辣なコンテンツを仕込めば、モデルの振る舞いと出力に永続的に影響を及ぼし続けることも可能だろう。
大規模言語モデルを使って生成したコードをソフトウェアに組み込むとなれば、こういったリスクはさらに増大する。
「プロンプト・インジェクションを知らないまま、大規模言語モデルを使ってソフトウェアを構築しているとすれば、待っているのは間抜けな失敗だけであり、でき上がるのは不安定なシステムです」。フリーランスの研究者兼ソフトウェア開発者でプロンプト・インジェクションを精査してきたサイモン・ウィリソンは話す。
大規模言語モデルが普及していくにつれ、悪意を持つ者が大規模言語モデルをハッキングに使う動機も強くなる。その結果として起こる異常事態への備えは、まだ何もできていない。
◆
レトロな都市の「写真」を作り出す中国のクリエイターたち
多くのアーティストやクリエイターたちが、AIの力を借りて懐かしい中国の写真を作り出している。よく見ると細部におかしな点はあるが、ソーシャルメディアの大勢のフォロワーたちが騙されて感動してしまうほどにはリアルなものだ。
本誌のヤン・ズェイ記者が、ミッドジャーニー(Midjourney)を使ってこれらの画像を作成したアーティストに話を聞いている。ミッドジャーニーの最新版は中国のアーティストにとっては大きな転換点となった。よりリアルな人間(しっかり指が5本ついている)を作成できるようになり、アジア人の顔の描写が改善されたためだ。 詳しくはこの記事をお読みいただきたい。
AI関連のその他のニュース
グーグルとディープマインドが協力してオープンAIに対抗。大規模言語モデルがアルファベット(Alphabet)内で対立を引き起こした理由、そしてGPT-4に匹敵する言語モデルの構築を目指す「ジェミニ(Gemini)」プロジェクトでグーグルとディープマインド(DeepMind)が協力せざるを得なくなった経緯をまとめた記事。 (ザ・インフォメーション)
バズフィード(BuzzFeed)がまるごとAI生成の記事をひっそり掲載。バズフィードが今年の初めにチャットGPTを使ってクイズを生成する計画を発表した際は、記事を書く人間のライターを置き換えることはないと述べていた。しかし、その約束は長くは続かなかった。現在同社は、AIが生成した記事は、AIによる文章作成支援の効果を確認するための「実験」の一部だと説明している。 (フューチャリズム)