OpenAIがGPT Realtimeを正式版を公開、最先端の音声対話モデル

OpenAIがRealtime APIをベータ版から正式版にアップデートし、新しい音声対話モデル「gpt-realtime」を発表。低遅延・高信頼性の音声認識と生成、複雑な指示の理解と正確なツール呼び出し、より自然で表現豊かな音声生成、システムメッセージと開発者プロンプトの解釈能力向上などが行われた。また画像入力の対応、MPCサポートの有効化などの改善も行われた。

性能向上：

英数字検出精度：82.8%（従来65.6%から向上）
指示順守精度：MultiChallengeベンチマーク30.5%（従来20.6%から向上）
関数呼び出し精度：ComplexFuncBench 66.5%（従来49.7%から向上）

料金：

音声入力トークン：100万件あたり32ドル
キャッシュ済み入力：0.4ドル
音声出力トークン：100万件あたり64ドル
従来モデル比20%安

#参考文献

OpenAI Developers - X