Open AI が新しい音声認識/音声合成モデルを公開
新しい音声認識(speech-to-text)と音声合成(text-to-speech)モデルが API で公開されました。
https://openai.com/index/introducing-our-next-generation-audio-models/
新しい音声認識モデル(gpt-4o-transcribe、gpt-4o-mini-transcribe)は、既存の Whisper モデルと比較して精度と信頼性が向上し、特にアクセント、騒音環境、さまざまな話速といった難しい状況でも優れた性能を発揮します。また FLEURS などのベンチマークで低い Word Error Rate (WER)を達成し、多言語での認識精度も向上しています。
新しい音声合成モデル(gpt-4o-mini-tts)では、テキストの内容だけでなく話し方(例えば、「同情的なカスタマーサービス担当者のように話す」)を指示できるようになり、よりカスタマイズされた表現豊かな音声エージェントを開発できます。ただし、これらの音声合成モデルは、あらかじめ設定された人工的な音声に限られます。