生成AI大手OpenAIは5月13日(現地時間)、文字、音声、映像の入力からリアルタイムに推論ができて、まるで人間相手のように自然に会話できる最上位のLLM「GPT-4o(オー)」を発表した。今後数週間以内にChatGPTで使えるようになる。無料ユーザーも回数制限つきで利用できる。有料ユーザーは無料ユーザーの最大5倍利用可能。oは“オムニ”の略。
推論性能は他社モデルと比べてもトップクラス。音声入力の応答時間は最速232ミリ秒で、会話中の人間の応答時間と似ているという。APIとしては、旧来のモデルである「GPT-4 Turbo」に比べても処理が2倍早く、さらに料金が50%安く、レート制限は5倍になる。
文字、映像、音声を含むすべての入力と出力を、同じニューラルネットワークが処理する仕組みになっているのが特徴。旧来モデルのGPT-4より情報の損失が少なく、声のトーン、複数の話者、背景音なども直接処理できるようになっている。
GPT-4oの発表会では、iPhoneアプリを使い、次々に違う人々が割り込んでも自然に会話を続けるデモを披露。「感情豊かに言って」「ロボットのように言って」といった要望にも応じた。カメラで「3X+1=4」と書いた紙を見せて解き方をたずねると「最初のステップはxを…」と解法を教えたり、「I ♡ ChatGPT」と書いた紙を見せると「Oh...Thanks」と照れくさそうに言うといった内容も見せた。いずれも応答がとてもすばやく、待ち時間はほとんどなかった。
続いて音声応答用のデスクトップアプリを使ったデモも披露。プログラ厶をコピーして「これはどんなコードかわかる?」「“foo”っていう機能については?」などとたずねると、それぞれにすばやく回答。季節ごとの気温の変化についてのグラフを見せて「どんなグラフかわかる?」と聞くと、やはりすぐにグラフの内容を即答してみせた。
さらにXからのリクエストとしてリアルタイム翻訳も披露。iPhoneアプリを使ったデモでは、ほぼ遅れのない同時通訳ができる様子を見せていた。
サム・アルトマンCEOはデモに関連してか、発表会の終了後に「her」とXでつぶやいている(おそらく映画「her」のこと)。
her
— Sam Altman (@sama) May 13, 2024
こうしたリアルタイム推論のデモは以前にグーグルがLLM「Gemini」の発表会で見せていたもの。Geminiのデモはあとから動画を編集したものであるとわかったが、今回のデモは本当にリアルタイムで実施されている様子だった(途中で音声が途切れる場面もあった)。
なお、OpenAIのWilliam Fedus氏は、LLMのベンチマークサイト「LMSys arena」で一時期話題になっていたモデル「gpt2-chatbot」の正体はGPT-4oだったと種明かした。合わせてベンチマークスコアも公開している。
GPT-4o is our new state-of-the-art frontier model. We’ve been testing a version on the LMSys arena as im-also-a-good-gpt2-chatbot 🙂. Here’s how it’s been doing. pic.twitter.com/xEE2bYQbRk
— William Fedus (@LiamFedus) May 13, 2024