OpenAIがGPT Realtimeを正式版を公開、最先端の音声対話モデル
OpenAIがRealtime APIをベータ版から正式版にアップデートし、新しい音声対話モデル「gpt-realtime」を発表。 低遅延・高信頼性の音声認識と生成、複雑な指示の理解と正確なツール呼び出し、より自然で表現豊かな音声生成、システムメッセージと開発者プロンプトの解釈能力向上などが行われた。また画像入力の対応、MPCサポートの有効化などの改善も行われた。
性能向上:
- 英数字検出精度:82.8%(従来65.6%から向上)
- 指示順守精度:MultiChallengeベンチマーク30.5%(従来20.6%から向上)
- 関数呼び出し精度:ComplexFuncBench 66.5%(従来49.7%から向上)
料金:
- 音声入力トークン:100万件あたり32ドル
- キャッシュ済み入力:0.4ドル
- 音声出力トークン:100万件あたり64ドル
- 従来モデル比20%安