OpenAI、処理が爆速で人間相手のように会話できる「GPT-4o」

2024年05月14日 03時30分更新

文● ASCII

OpenAI発表会より。最高技術責任者ミラ・ムラティ氏

　生成AI大手OpenAIは5月13日（現地時間）、文字、音声、映像の入力からリアルタイムに推論ができて、まるで人間相手のように自然に会話できる最上位のLLM「GPT-4o（オー）」を発表した。今後数週間以内にChatGPTで使えるようになる。無料ユーザーも回数制限つきで利用できる。有料ユーザーは無料ユーザーの最大5倍利用可能。oは“オムニ”の略。

　推論性能は他社モデルと比べてもトップクラス。音声入力の応答時間は最速232ミリ秒で、会話中の人間の応答時間と似ているという。APIとしては、旧来のモデルである「GPT-4 Turbo」に比べても処理が2倍早く、さらに料金が50％安く、レート制限は5倍になる。

　文字、映像、音声を含むすべての入力と出力を、同じニューラルネットワークが処理する仕組みになっているのが特徴。旧来モデルのGPT-4より情報の損失が少なく、声のトーン、複数の話者、背景音なども直接処理できるようになっている。

　GPT-4oの発表会では、iPhoneアプリを使い、次々に違う人々が割り込んでも自然に会話を続けるデモを披露。「感情豊かに言って」「ロボットのように言って」といった要望にも応じた。カメラで「3X+1=4」と書いた紙を見せて解き方をたずねると「最初のステップはxを…」と解法を教えたり、「I ♡ ChatGPT」と書いた紙を見せると「Oh...Thanks」と照れくさそうに言うといった内容も見せた。いずれも応答がとてもすばやく、待ち時間はほとんどなかった。

　続いて音声応答用のデスクトップアプリを使ったデモも披露。プログラ厶をコピーして「これはどんなコードかわかる？」「“foo”っていう機能については？」などとたずねると、それぞれにすばやく回答。季節ごとの気温の変化についてのグラフを見せて「どんなグラフかわかる？」と聞くと、やはりすぐにグラフの内容を即答してみせた。

　さらにXからのリクエストとしてリアルタイム翻訳も披露。iPhoneアプリを使ったデモでは、ほぼ遅れのない同時通訳ができる様子を見せていた。

　サム・アルトマンCEOはデモに関連してか、発表会の終了後に「her」とXでつぶやいている（おそらく映画「her」のこと）。

her
— Sam Altman (@sama) May 13, 2024

　こうしたリアルタイム推論のデモは以前にグーグルがLLM「Gemini」の発表会で見せていたもの。Geminiのデモはあとから動画を編集したものであるとわかったが、今回のデモは本当にリアルタイムで実施されている様子だった（途中で音声が途切れる場面もあった）。

　なお、OpenAIのWilliam Fedus氏は、LLMのベンチマークサイト「LMSys arena」で一時期話題になっていたモデル「gpt2-chatbot」の正体はGPT-4oだったと種明かした。合わせてベンチマークスコアも公開している。

GPT-4o is our new state-of-the-art frontier model. We’ve been testing a version on the LMSys arena as im-also-a-good-gpt2-chatbot 🙂. Here’s how it’s been doing. pic.twitter.com/xEE2bYQbRk
— William Fedus (@LiamFedus) May 13, 2024