このページの本文へ

「これはどう使うの?」画面や映像を見ながら会話できるAI、グーグルとOpenAIが相次ぎ発表

2024年12月13日 15時10分更新

文● G. Raymond 編集●ASCII

  • お気に入り
  • 本文印刷

 グーグルとOpenAIが相次いで、映像を見ながら会話できるAIアシスタントの新機能を発表している。

 グーグル12月11日、AIモデル「Gemini 2.0」の新機能としてMultimodal Live APIを公開した。開発者はリアルタイムの映像や音声を認識しながら対話できるアプリケーションを作れる。音声による自然な会話に加え、カメラ映像やスクリーンの共有にも対応し、最大2分間の映像・音声入力が可能だ。

 これに対してOpenAIは翌12日、ChatGPTのAdvanced Voice機能に画面共有とビデオ会話機能を追加した。有料の「ChatGPT Plus」「ChatGPT Pro」契約者は、スマホのカメラを通じて目の前の状況をChatGPTに見せながら会話できるようになる。デモでは、コーヒーの淹れ方をカメラで撮影しながらChatGPTからアドバイスを受けるなど、実践的な使用例が紹介された。

 なお、OpenAIではこの機能を段階的に展開し、「ChatGPT Enterprise」「ChatGPT Education」ユーザーには2025年1月から提供を開始する予定だ。

 

カテゴリートップへ

ピックアップ