OpenAIが2025年8月28日、リアルタイムAPI(Realtime API)の正式リリースを発表。プロダクション環境向けの、音声エージェント構築に対応した。従来のように「音声→文字→処理→音声」と複数のモデルを経由する方法に替えて、音声を直接処理し、音声で返すことで、応答の遅延を減らし、人間らしい感情やイントネーション、間のニュアンスをそのまま保存できるようになっている。
最先端モデル「gpt-realtime」では、複雑な指示の理解、ツールの呼び出し、より自然で表現豊かな発話能力を大きく向上させた。話している途中で言語を切り替えたり、笑い声や感情のニュアンスを認識したり、免責事項をそのまま読み上げるなど細かい指示にも忠実に従うようになっている。
開発者向けの機能も強化された。リモートMCPサーバーに対応し、外部ツールと連携がしやすくなったほか、画像入力にも対応したことで、会話の文脈に画像を使って補足できるようになった。SIPによる電話発信機能も加わり、電話での応答にも対応。定型的な応答をしやすくする、プロンプトの再利用機能も加わっている。







