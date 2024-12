グーグルとOpenAIが相次いで、映像を見ながら会話できるAIアシスタントの新機能を発表している。

グーグル12月11日、AIモデル「Gemini 2.0」の新機能としてMultimodal Live APIを公開した。開発者はリアルタイムの映像や音声を認識しながら対話できるアプリケーションを作れる。音声による自然な会話に加え、カメラ映像やスクリーンの共有にも対応し、最大2分間の映像・音声入力が可能だ。

We unveiled the new Multimodal Live API for Gemini 2.0 Flash Experimental. ⚡



Developers can harness the power of real-time audio and video streaming to create anything from interactive assistants that respond to your voice to live translation applications. ↓ pic.twitter.com/M34KHnjXsI