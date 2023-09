OpenAIは9月25日(現地時間)、同社のAIチャットサービス「ChatGPT」に音声と画像を扱うことができる「マルチモーダル」機能を追加したことを発表した。今後2週間以内にPlusとEnterpriseユーザーから順次利用できるようになる。ただし、音声はスマートフォンアプリ(iOS/Android)でのみ利用可能となる。

スマートフォンアプリでは、音声によるChatGPTとの会話が可能になった。

音声入力を始めるには、最初にアプリの「Settings」メニュー「New Features」タブから「Voice Conversations(音声会話)」を選んでオプトインする必要がある。

音声合成には、テキストと数秒間のサンプル音声から、まるでその人がはなしているような音声を生成できる新しいモデルを採用し、プロの声優の協力で5種類の音声が用意されている。音声はヘッドフォンボタンをタップすることによって切り替えも可能だ。

また、入力した音声をテキスト化するのにはOpenAIの音声認識技術「Whisper」が使用されている。

Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate. Sound on 🔊 pic.twitter.com/3tuWzX0wtS

デモ動画では「ハリネズミのラリーのお話しをして」という音声リクエストに対して、ChatGPTがお話しを創作し、語り聞かせる様子を見ることができる。単にお話しを聞かせてくれるだけではなく、「ラリーはどんな家に住んでるの?」といったユーザーの質問に対してもすべて音声で回答している。

UIを見ると、ユーザーが音声を入力している際には大きな円が、ChatGPTが音声で回答している際には4つの楕円が表示されるようだ。

画像を使いたい場合は写真ボタン(スマートフォンアプリの場合はプラスボタン)をタップして撮影または既存の写真を選択する。複数の画像を選んだり、お絵かきツールでChatGPTに注目してもらいたい部分を指定することもできる。

画像認識はマルチモーダル機能を持つGPT-3.5およびGPT-4によるものだ。両モデル共に、写真、スクリーンショット、テキストと画像の両方を含む文書など、幅広い画像を理解することができる。

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bmpic.twitter.com/paG0hMshXb