画像クレジット:Stephanie Arnett/MIT Technology Review | Getty
オープンAIが開発者向けプラットフォームの強化を打ち出している。音声機能やプロンプト生成機能などを通じて、人間に代わって複雑なタスクを実行できる「AIエージェント」の開発を推進するのが狙いだ。
この記事は米国版ニュースレターを一部再編集したものです。
オープンAI(OpenAI)のプラットフォーム製品担当責任者であるオリヴァー・ゴドマンと、開発者体験担当責任者であるロメイン・ヒュエットは現在、世界巡業ツアーの最中だ。先日、同社の年次開発者カンファレンス「デブディ(DevDay)」を前に、私はロンドンで2人に話を聞いた。ロンドンでのデブディは、同社初のサンフランシスコ以外での開催となる。ゴドマン責任者とヒュエット責任者の次に向かうのはシンガポールだ。
同社はこのところ多忙な数週間を過ごしている。ロンドンで、オープンAIはリアルタイムAPI(Realtime API)プラットフォームのアップデートを発表した。これにより、開発者はアプリに音声機能を組み込むことができるようになる。同社は音声機能に加え、開発者向けにプロンプト(指示テキスト)の生成機能もリリースした。これにより、開発者はアプリや高性能な音声アシスタントをより迅速に作り上げることができる。また、消費者向けには、チャットボットを利用してインターネット検索ができるようになるチャットGPT(ChatGPT)検索を発表した(詳しくはこちら)。
どちらの動きも、人工知能(AI)における次の大きなテーマであるエージェントの土台となるものだ。エージェントとは、複雑なタスクの連鎖(例えばフライトの予約)のすべてを完了できるAIアシスタントを指す(エージェントに関する解説記事はこちら)。
「数年後には、地球上のすべての人、すべての企業が、エージェントを利用しているでしょう。エージェントはあなたのことを何から何まで知っています。あなたの好みも完璧に把握しています」。ゴドマン責任者は語る。いわく、エージェントは電子メール、アプリ、カレンダーへのアクセス権限をもち、これらのツールと相互作用して、大統領首席補佐官のような仕事をする。特定のテーマで論文を書くといった、長期的な課題でさえもこなすという。
オープンAIの戦略は、エージェント自体を開発することに加え、開発者が同社のソフトウェアを使って独自エージェントを構築できるようにするというものだと、ゴドマン責任者は説明する。音声は、エージェントの外観や使用感がどんなものになるかを左右する、重要な役割を果たすだろう。
「現時点ではほとんどのアプリはチャットベースです。悪くはないですが、すべてのユースケースに適しているとは言えません。タイピングができなかったり、スクリーンを見ることさえできなかったりするユースケースもあるため、これらを考慮すれば、音声のほうが本質的にずっと優れたモダリティなのです」(ゴドマン責任者)。
しかし、エージェントの実現にあたっては、2つの大きなハードルを超えなければならないと、ゴドマン責任者は語る。
第一のハードルは推論だ。AIエージェントを開発するには、エージェントが複雑なタスクを完遂し、適切な決定を下せるということを、私たちが信頼できるようにする必要がある、とヒュエット責任者は説明する。そこで鍵を握るのが、オープンAIの「推論」機能だ。 今年10月にオープンAIの「o1」モデルに実装された推論機能は、強化学習を利用して、モデルに「思考の連鎖」を利用した情報処理の方法を学習させるものだ。モデルが答えを生成する時間に余裕をもたせることによって、間違いを認識して訂正する、ひとつの問題を複数の小さな問題に切り分ける、問いに答えるために複数の異なるアプローチをとるといったことが可能になると、ゴドマン責任者は述べる。
ただし、オープンAIが謳う推論機能は、ある程度懐疑的に見る必要があると、ワシントン大学のチラグ・シャー教授(コンピューター科学)は指摘する。大規模言語モデルは真の推論を実行できるわけではない。訓練データに含まれる、ロジックに似たものを抽出しているだけである可能性が高いのだ。
「これらのモデルは時に、すばらしい推論能力を備えているように思えることもありますが、実際はそんなふうに偽装するのが上手いだけです。ほんの少しつついてやれば、すぐにボロが出ます」と、シャー教授は話す。
まだ課題は山積していると、ゴドマン責任者は認める。短期的には、o1のようなAIモデルを、今よりもずっと信頼でき、高速で、安価なものにしなければならない。そして長期的には、オープンAIは思考の連鎖の手法を、より広範なユースケースに適用可能なものにする必要がある。これまでオープンAIは、科学、コーディング、数学に専念してきた。同社は今、法制度、会計、経済といった、その他の分野も射程に含めようとしていると、ゴドマンは語る。
第2の課題は、異なる種類のツールの連携能力であると、ゴドマン責任者は説明する。訓練データだけに頼っていては、AIモデルの能力には限りがある。Webサーフィンをして、最新の情報を参照できなければならないのだ。チャットGPT検索は、オープンAIの新たなツールがこうした機能を実行する強力な方法だ。
こうしたツールは、ただ情報を収集するだけでなく、実世界でアクションを実行できなくてはならない。たとえば、オープンAIのライバル企業であるアンソロピック(Anthropic)は、チャットボット「クロード(Claude)」にコンピューターを「使う」新機能、例えばインターフェイスとやり取りして対象をクリックする機能を実装すると発表した。エージェントがフライトの予約のようなタスクを実行するには、このような機能が重要だ。ゴドマン責任者によれば、o1はツールを「ある程度は」使用できるが、非常に確実性が高いわけではない。ただし、ツール使用の研究は「期待できる展開」を迎えているという。
カスタマーサポートやその他のアシスタントベースのタスクにおいて、1年以内にAIの普及が進むだろうと、ゴドマン責任者は予測する。 一方でゴドマン責任者は、人々がオープンAIのテクノロジーをどのように取り入れて使用するかについては予測が難しいと語る。
「率直に言って、1年を振り返るたびに、私が予想もしなかったユースケースが出現したことに驚いています。誰も予測できない、たくさんのサプライズがこの先にも待っているでしょう」 。
AI関連のその他のニュース
AIは電子廃棄物問題を悪化させる。どんな対策をとるべきか。生成AIモデルの訓練と運用に使用される機器類が、2030年までに最大500万トンの電子廃棄物を生み出す可能性がある。これは世界全体の電子廃棄物と比べれば少ないが、無視できない割合を占める。(MITテクノロジーレビュー)
亡くなった著名人への「インタビュー」で露呈したAIの欠陥。ポーランドの国営ラジオ局はパーソナリティを解雇し、代わりにAIが生成したプレゼンターを抜擢した。しかし、AIプレゼンターが亡くなったノーベル賞受賞者へ「インタビュー」したことが反発を招き、この実験は中止に追い込まれた。(ニューヨーク・タイムズ)
メタ、粗製乱造のAIコンテンツを歓迎。メタ(Meta)の直近の収支報告で、マーク・ザッカーバーグ最高経営責任者(CEO)は、今後ますます「まったく新しいカテゴリーのコンテンツ、すなわちAI生成コンテンツや、既存のコンテンツをAIがなんらかの形で統合したAI要約コンテンツ」が増加するだろうと述べた。さらに、「とても刺激的な展開になるでしょう」と、自身の見解を付け加えた。(404メディア)