グーグルとOpenAIが相次いで、映像を見ながら会話できるAIアシスタントの新機能を発表している。
グーグル12月11日、AIモデル「Gemini 2.0」の新機能としてMultimodal Live APIを公開した。開発者はリアルタイムの映像や音声を認識しながら対話できるアプリケーションを作れる。音声による自然な会話に加え、カメラ映像やスクリーンの共有にも対応し、最大2分間の映像・音声入力が可能だ。
We unveiled the new Multimodal Live API for Gemini 2.0 Flash Experimental. ⚡
— Google DeepMind (@GoogleDeepMind) December 12, 2024
Developers can harness the power of real-time audio and video streaming to create anything from interactive assistants that respond to your voice to live translation applications. ↓ pic.twitter.com/M34KHnjXsI
これに対してOpenAIは翌12日、ChatGPTのAdvanced Voice機能に画面共有とビデオ会話機能を追加した。有料の「ChatGPT Plus」「ChatGPT Pro」契約者は、スマホのカメラを通じて目の前の状況をChatGPTに見せながら会話できるようになる。デモでは、コーヒーの淹れ方をカメラで撮影しながらChatGPTからアドバイスを受けるなど、実践的な使用例が紹介された。
Screenshare while using Advanced Voice for instant feedback on whatever you’re looking at. pic.twitter.com/d4Xm36dwOX
— OpenAI (@OpenAI) December 12, 2024
なお、OpenAIではこの機能を段階的に展開し、「ChatGPT Enterprise」「ChatGPT Education」ユーザーには2025年1月から提供を開始する予定だ。