仕組みは不明でも製品化は過熱、生成AIブームの落とし穴

2024年04月02日 08時29分更新

文● Melissa Heikkilä

画像クレジット:Stephanie Arnett/MITTR | Envato

人工知能（AI）に関する理解は、まだ初期段階だ。AI搭載製品を販売する企業の宣伝に惑わされることなく、有用性は限られていることを肝に銘じる必要がある。

この記事は米国版ニュースレターを一部再編集したものです。

私は日々の仕事で、実験的に人工知能（AI）アシスタントを利用してきた。AIが有用であるための最大の障害は、しばしば物事をあからさまに間違えることだ。あるケースで私は、身体障害についてインタビューしながらAI文字起こしプラットフォームを使ったが、AIがまとめた要約は、その時の会話を自閉症に関するものと決めつけていた。これはAIの「幻覚（ハルシネーション）」問題の一例である。大規模言語モデルが単純に物事をでっち上げるのだ。

最近、もっとはるかに大きな規模でAIが不具合を起こす事例がいくつかあった。最新の不具合事例では、グーグルのGemini（ジェミニ）が白人、特に白人男性の画像を生成することを拒否した。その代わり、黒人の教皇やナチスの女性兵士の画像は生成することができた。グーグルは自社モデルのアウトプットをバイアスの少ないものにしようとしてきたが、それが裏目に出た。まもなくしてグーグルは、自らが米国の文化戦争の真っ只中にいることに気づいた。保守的な批評家たちやイーロン・マスクから、「ウォーク（woke：社会的不公正や人種差別など）」バイアスがかかっていて歴史を正確に表現していないと非難されたのだ。グーグルは謝罪し、この機能を一時停止した。

今や有名になった別の事件では、マイクロソフトのBing Chat（ビング・チャット）がニューヨーク・タイムズ紙の記者に対し、妻と別れるように話した。また、顧客サービス・チャットボットは、企業をあらゆる種類のトラブルに巻き込み続けている。例えば、エア・カナダは最近、自社の顧客サービス・チャットボットが作り出したポリシーに従い、顧客に返金せざるを得なかった。こうした例は他にもまだまだある。

AIはコントロールが難しく、しばしば予測不可能な振る舞い方をするという多くの証拠があるにもかかわらず、テック企業各社は大急ぎでAI搭載製品を発売している。このような奇妙な振る舞いが起こるのは、今日のAIブームを支えている基本テクノロジー「深層学習」がどのように機能するのか、あるいはなぜ機能するのか、誰も正確には分かっていないためだ。それは、AIにおける最大の謎の1つだ。本誌のウィル・ダグラス・ヘブンAI担当上級編集者がつい先日、この問題を詳しく解説した記事を公開している。

最大の謎は、GeminiやオープンAI（OpenAI）のGPT-4のような大規模言語モデルが、教えられていないことをどうやって学習できるのかということだ。言語モデルを英語の数学の問題で訓練し、次にフランス文学書を見せることで、モデルはフランス語の数学の問題を解くことができる。そのような能力は、予測モデルの振る舞い方に関して最も優れた説明を提供する古典統計学に反している、とウィル上級編集者は記事に書いている（詳しくはこちら）。

無知から生じる認識を、魔法と勘違いするのはたやすい。このテクノロジーのAIという名前さえ、悲劇的なまでに誤解を招きやすい。言語モデルが賢く見えるのは、ある文の中の次の単語を予測することで人間が書いたような散文を生成するためである。このテクノロジーは真に知的なものではない。AIという名前で呼ぶことで、私たちの期待は微妙に変化する。そのため、このテクノロジーを実際よりも有能なもののように扱っているのだ。

これらのモデルが全知的であるとか、事実に忠実であるとか、あるいは私たちが期待している仕事をする準備がほぼできているとさえ信じて、テック業界のマーケティングの罠にはまってはならない。それらのモデルには予測不可能性、制御不能なバイアス、セキュリティ上の脆弱性、そして物事をでっち上げる傾向があるため、その有用性は極めて限られている。それらのモデルは人間のブレインストーミングを助けたり、私たちを楽しませたりできる。しかし、それらのモデルの誤作動の多さや、不具合の多さを知っている以上、信頼してクレジットカードの詳細情報や機密情報を託したり、重要なユースケースで使用するのは、おそらく良い考えではない。

ウィル上級編集者の記事に登場する科学者たちが言うように、AI研究の分野はまだ黎明期だ。ハーバード大学のコンピューター科学者で、現在はオープンAIのスーパーアライメント・チームに出向しているボアズ・バラク教授によれば、この分野の多くの人々はAIのことを、アインシュタインが相対性理論を考え出した20世紀初頭の物理学になぞらえている。

この分野の今日の焦点は、モデルの振る舞いを生み出している仕組みだ。しかし、モデルがそのように振る舞う理由については、さらなる研究が必要だ。私たちがAIの内部をより良く理解できるようになるまでは、奇妙な誤りを犯す例や、このテクノロジーが間違いなくかなえられないことを、大げさに宣伝することが増えると予想される。

◆ スーパーマリオ風ゲームを生成するAI

オープンAIは最近、驚くほど優秀な生成モデルSora（ソラ）を発表したことにより、テキストから動画への変換によってできることの限界を押し広げた。今度はグーグル・ディープマインドが、私たちにテキストからビデオゲームへの変換手段をもたらす。この新たなモデル「Genie（ジーニー）」は、短い説明文や手書きのスケッチ、写真を取り込み、それをスーパーマリオブラザーズのような古典的な2Dプラットフォーマーのスタイルで、プレイ可能なビデオゲームに変換できる。しかし、テンポの速さを期待してはいけない。最新のゲームは通常1秒間に30～60フレームで動作するのに対し、このゲームは1秒間に1フレームである。

グーグル・ディープマインドの研究者たちが関心を示しているのは、ゲーム生成だけではない。Genieの開発チームは、AI制御のボットを仮想環境に放り込み、試行錯誤によってさまざまなタスクを解決させる、オープンエンド学習に取り組んでいる。この手法は、ロボット工学の分野を発展させるという追加的な利点も併せ持つ可能性がある。詳しくは、ウィル・ダグラス・ヘブン上級編集者の記事を読んでほしい。

AI関連のその他のニュース

生成AIは著作権法を限界点以上に歪めてしまうかもしれない。著作権法は、人々の創造的な貢献を補償する創造的文化を育成するために存在している。アーティストとAI企業の間の法廷闘争によって、「公平な使用」を構成する概念が検証されることになりそうだ。（アトランティック）

タンブラー（Tumblr）とワードプレス（WordPress）がAI訓練用にユーザー・データを販売する契約を締結。レディット（Reddit）だけが、今日のAIブームから利益を得ようとしているプラットフォームではない。タンブラーとワードプレスがミッドジャーニー（Midjourney）およびオープンAIと提携し、ユーザーの作成したコンテンツをAI訓練用データとして提供しようとしていることが、内部文書で分かった。この文書は、タンブラーが売ろうとしていたデータセットの中に、プライベート・メッセージのようなあってはならないコンテンツも含まれていたことを明らかにしている。（404メディア）

ポルノハブ（Pornhub）のチャットボットが数百万人の児童虐待動画検索を阻止。あるAIチャットボットが過去2年間にわたり、英国のポルノハブで児童性的虐待素材を検索している人々に対し、抑止的なポップアップを表示した。指示回数は440万回以上にのぼる。かなりショッキングな数字だ。（ワイアード）

AIが生成した広告の悲劇。スコットランドのグラスゴーにあるイベント会社は画像生成AIを使って、「チョコレートの夢が現実になる」場所「ウィリーのチョコレート体験」のイベントに客を呼び込んだ。客が訪れたイベント会場は、悲しげなウンパルンパと憂鬱な装飾が待つだけの、ほとんど人気のない倉庫だった。警察に通報されたほか、このイベントは口コミで話題になり、インターネットはそれ以来大騒ぎになっている。（BBC）

【この記事をMITテクノロジーレビューで読む】

ツイートする

カテゴリートップへ

ASCII倶楽部