画像クレジット:Stephanie Arnett/MIT Technology Review | rawpixel, Envato
チャットGPTの登場から2年近くが経過し、生成AI業界は数十億ドル規模のブームとなった。しかし決定的なキラーアプリはいまだ見当たらない。音声や動画を組み合わせたマルチモーダルAIの新サービスは、その模索の最前線だ。
この記事は米国版ニュースレターを一部再編集したものです。
人工知能(AI)チャットボットとのチャットは、2022年を象徴する出来事だった。最新話題のAIのおもちゃは、画像、音声、テキストなど複数のものを同時に扱える「マルチモーダル・モデル」を駆使している。
その1つが、グーグルのNotebookLM(ノートブックLM)だ。NotebookLMは、グーグルが1年前にひっそりとリリースしたリサーチ・ツールである。数週間前、グーグルはNotebookLMに「Audio Overview(オーディオ・オーバービュー)」という名前のAIポッドキャスティング・ツールを追加した。ユーザーがあらゆることに関するポッドキャストを作成できるツールだ。例えば、自分のリンクトイン(LinkedIn)プロフィールへのリンクを追加すると、このAIポッドキャスト・ホストが9分間にわたり、あなたをおだててくれる。この機能は驚くほどネット上で急速に広まり、ヒットとなった。 私は、このツールの奇妙で驚くべき使い方について、『資料を入力、AIが語り出すポッドキャスト自動生成のグーグル新ツールが話題』という記事を書いた。
読者のみなさんにも体験してもらうため、本誌米国版の125周年記念号のポッドキャストを作成した。誌面から見どころをいくつかピックアップし、その内容の要点を教えてくれるという素晴らしい仕事をAIがしている。 以下でお聞きいただきたい。
マルチモーダル生成コンテンツも、非常に短期間で著しく良くなった。2022年10月、私はユーザーが入力したテキストを基に短編動画を生成する、メタの「Make-A-Video(メイク・ア・ビデオ)」のことを『今度は「テキストから動画」、メタが生成AIを発表』という記事で取り上げた。この動画は、現在のテクノロジーと比べるとぎこちなくて、くだらなく見える。メタはつい最近、オープンAI(OpenAI)のSora(ソラ)に対抗するツール「Movie Gen(ムービー・ジェン)」を発表したばかりだ。 このツールでユーザーは、テキスト・プロンプトを使ってカスタム動画やカスタム音声を作成したり、既存の動画を編集したり、画像から動画を作ったりできる。
私たちがAIシステムとやり取りする方法も変化しており、テキストへの依存度が低くなってきている。オープンAIの新しい「Canvas(キャンバス)」インターフェースは、ユーザーがチャットGPT(ChatGPT)を使ってプロジェクトで共同作業できるようにしている。ユーザーは、何度もテキストを作り直してプロンプト入力をしなければ望む結果が得られなかった従来のチャット・ウィンドウに頼る代わりに、Canvasを使い、結果のテキストやコードの断片を選択して編集できる。
検索機能にさえもマルチモーダルなアップグレードが実施されている。グーグルはAI Overviews(AIオーバービュー)への広告挿入に加え、ユーザーが動画をアップロードし、音声を使って検索できるようにした。グーグルI/Oで実施されたデモでは、グーグル・レンズ(Google Lens)アプリを開いて水族館で泳ぐ魚の動画を撮影し、その魚について質問する方法が紹介された。質問すると、グーグルのGemini(ジェミニ)モデルがWebを検索し、グーグルのAIが要約した形で答えを提示してくれる。
これらの機能を統合しているのが、よりインタラクティブでカスタマイズ可能なインターフェースと、さまざまな多くのタイプのソース素材にAIツールを適用する能力である。NotebookLMは、久しぶりに驚きと楽しさを与えてくれたAI製品である。その理由の1つは、AIの音声が今までとは異なり、リアルで、予想外なものだったからだ。しかし、NotebookLMのAudio Overviewsが、より大きな製品の中に隠された副次的な機能であるにもかかわらず人気に火がついた、という事実は、AI開発者が自分たちのやっていることを本当は分かっていないことを示している。今となっては信じがたいことだが、チャッットGPT自体、オープンAIにとっては予想外のヒットだったのだ。
数十億ドル規模の生成AI(ジェネレーティブAI)ブームが始まって数年が経つ。AIへの莫大な額の投資は、生成結果のコンテンツの質を急速に向上させることに貢献してきた。しかし、まだキラーアプリは登場していない。これらの新しいマルチモーダル・アプリケーションは、AI企業がお金を稼いで成果を出すという非常に大きなプレッシャーにさらされている結果である。テック企業各社は、さまざまなAIツールを人々に提示して、何が受け入れられるか、様子を見ているのだ。
AIが生成した画像でロボットに行動を教える方法
画像生成AIモデルは、ロボットの訓練データを作成するために使われてきた。「ジェニマ(Genima)」と呼ばれるこの新たなシステムは、画像生成AIモデルのステーブル・ディフュージョン(Stable Diffusion)を微調整して、ロボットの動きを描画する。その画像を、シミュレーションと現実世界の両方でロボットを指導するのに利用する。
ジェニマによって、メカニカル・アームから人型ロボットや無人乗用車に至るまで、さまざまなタイプのロボットにタスクをこなす訓練をするのが容易になる可能性がある。また、ほとんど監視を必要とせずに複雑なタスクを遂行できる次世代のAIツールであるAI・Webエージェントが、スクロール操作やクリック操作をより上手にできるようにするのにも役立つかもしれない。 詳しくは、本誌のニュース担当記者リアノン・ウィリアムズの記事『画像生成AIがロボットに動きを指導、訓練効率化で新手法』を読んでほしい。