このページの本文へ

OpenAI、処理が爆速で人間相手のように会話できる「GPT-4o」

2024年05月14日 03時30分更新

文● ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 生成AI大手OpenAIは5月13日(現地時間)、文字、音声、映像の入力からリアルタイムに推論ができて、まるで人間相手のように自然に会話できる最上位のLLM「GPT-4o(オー)」を発表した。今後数週間以内にChatGPTで使えるようになる。無料ユーザーも回数制限つきで利用できる。有料ユーザーは無料ユーザーの最大5倍利用可能。oは“オムニ”の略。

 推論性能は他社モデルと比べてもトップクラス。音声入力の応答時間は最速232ミリ秒で、会話中の人間の応答時間と似ているという。APIとしては、旧来のモデルである「GPT-4 Turbo」に比べても処理が2倍早く、さらに料金が50%安く、レート制限は5倍になる。

 文字、映像、音声を含むすべての入力と出力を、同じニューラルネットワークが処理する仕組みになっているのが特徴。旧来モデルのGPT-4より情報の損失が少なく、声のトーン、複数の話者、背景音なども直接処理できるようになっている。

 GPT-4oの発表会では、iPhoneアプリを使い、次々に違う人々が割り込んでも自然に会話を続けるデモを披露。「感情豊かに言って」「ロボットのように言って」といった要望にも応じた。カメラで「3X+1=4」と書いた紙を見せて解き方をたずねると「最初のステップはxを…」と解法を教えたり、「I ♡ ChatGPT」と書いた紙を見せると「Oh...Thanks」と照れくさそうに言うといった内容も見せた。いずれも応答がとてもすばやく、待ち時間はほとんどなかった。

 続いて音声応答用のデスクトップアプリを使ったデモも披露。プログラ厶をコピーして「これはどんなコードかわかる?」「“foo”っていう機能については?」などとたずねると、それぞれにすばやく回答。季節ごとの気温の変化についてのグラフを見せて「どんなグラフかわかる?」と聞くと、やはりすぐにグラフの内容を即答してみせた。

 さらにXからのリクエストとしてリアルタイム翻訳も披露。iPhoneアプリを使ったデモでは、ほぼ遅れのない同時通訳ができる様子を見せていた。

 サム・アルトマンCEOはデモに関連してか、発表会の終了後に「her」とXでつぶやいている(おそらく映画「her」のこと)。

 こうしたリアルタイム推論のデモは以前にグーグルがLLM「Gemini」の発表会で見せていたもの。Geminiのデモはあとから動画を編集したものであるとわかったが、今回のデモは本当にリアルタイムで実施されている様子だった(途中で音声が途切れる場面もあった)。

 なお、OpenAIのWilliam Fedus氏は、LLMのベンチマークサイト「LMSys arena」で一時期話題になっていたモデル「gpt2-chatbot」の正体はGPT-4oだったと種明かした。合わせてベンチマークスコアも公開している。

 

■関連サイト

カテゴリートップへ

ピックアップ