Open AI が新しい音声認識/音声合成モデルを公開

新しい音声認識（speech-to-text）と音声合成（text-to-speech）モデルが API で公開されました。

https://openai.com/index/introducing-our-next-generation-audio-models/

新しい音声認識モデル（gpt-4o-transcribe、gpt-4o-mini-transcribe）は、既存の Whisper モデルと比較して精度と信頼性が向上し、特にアクセント、騒音環境、さまざまな話速といった難しい状況でも優れた性能を発揮します。また FLEURS などのベンチマークで低い Word Error Rate (WER)を達成し、多言語での認識精度も向上しています。

新しい音声合成モデル（gpt-4o-mini-tts）では、テキストの内容だけでなく話し方（例えば、「同情的なカスタマーサービス担当者のように話す」）を指示できるようになり、よりカスタマイズされた表現豊かな音声エージェントを開発できます。ただし、これらの音声合成モデルは、あらかじめ設定された人工的な音声に限られます。