AIエージェントの活用基盤とそれを支えるAIモデルのアップデート
新AIサービス「Google Agentspace」とは? 統合検索・自動化・情報整理で働き方を変える
AIエージェントの可能性を広げるマルチモーダルなAIモデルも進化
Google Agentspaceをはじめとする、AIエージェントを支えるモデルやインフラストラクチャーのアップデートも発表されている。
まずは、最新のAIモデル「Gemini 2.0」の軽量で高速なモデル「Gemini 2.0 Flash」が、AI開発基盤の「Vertex AI」にて試験利用できるようになった。Gemini 2.0 Flashは、現行の上位モデルであるGemini 1.5 Proと比べて処理速度が2倍で、自然言語からのコード生成の精度もGemini 1.5 Flashと比べて13.1%向上しているという。
機能面では、マルチモーダルな入出力が強化されており、音声出力やテキストを埋め込むインライン画像の出力が可能になった。リアルタイムなフィードバック求められるアプリケーション向けに、「Multimodal Live API」を用意しており、テキストや画像、音声、動画によるインタラクティブなやりとりができ、より自然な会話のメカニズムにも対応している。
画像生成・編集AIである「Imagen 3」の新機能もVertex AIで提供開始された。新たにマスクを使用した既存画像の編集機能が加わっており、例えば、プロンプトを通じて、画像内で対象物を挿入したり、削除したり、背景を変更したりすることが可能になった。
マスクなしの参照画像を基に、新たな画像を生成できるカスタマイズ機能も追加されている。例えば、ソファの画像に、「ソファに座る家族」というプロンプトを与えると、そのソファに家族が座った画像が生成される。
動画生成モデルである「Veo」もVertex AIでプライベートプレビューを開始した。テキストから動画を生成するText to Videoと、既存の画像にモーションを追加するImage to Videoの機能が利用できる。
また、Gemini 2.0と同時に第6世代のTPUチップである「Trillium」の一般提供も発表された。東京リージョンでも利用できる。同チップはGemini 2,0のインフラストラクチャーでも採用されており、前世代と比べてトレーニング性能が4倍、推論性能が3倍向上している。「高いパフォーマンスを求めるモデルでも、効率よくトラフィックをさばける」(寳野氏)という。
寳野氏は、「このようにVertex AI上で、様々なAIモデルを提供することで、より多くのエージェントの可能性を広げる」と語った。