316文字
2分
編集

xAI API、Grok の STT と TTS を単体提供

xAI は Grok Speech to Text(STT)と Grok Text to Speech(TTS)を、チャット推論 API とは独立した音声専用エンドポイントとして公開した。Grok Voice、Tesla 車載、Starlink のカスタマーサポートと同じ基盤を謳い、音声エージェント、リアルタイム文字起こし、アクセシビリティ、ポッドキャスト、双方向の音声体験などへ組み込む前提で REST と WebSocket を用意している。

  • STT: 長尺ファイル向けの REST と、低遅延の WebSocket ストリーミング。単語単位のタイムスタンプ、話者ダイアライゼーション、マルチチャンネル入力に対応し、数値・日付・通貨などを整形する Inverse Text Normalization を有効化できる。
  • STT: 25 言語以上の多言語を扱い、録音とリアルタイムの双方で話者 ID を付与できる。
  • TTS: 長文の REST 合成と WebSocket によるリアルタイム生成。[laugh][sigh][whisper] などのインラインおよびラップ型のスピーチタグで韻律や感情表現を制御できる。

Speech to Text の料金はバッチで時間あたり 0.10 US ドル、ストリーミングで時間あたり 0.20 US ドルである。Text to Speech は 100 万文字あたり 4.20 US ドルである。詳細と最新のレート制限は xAI API のコンソールで確認できる。

ドメインGrok STTElevenLabsDeepgramAssemblyAI
Phone Call Entities5.0%12.0%13.5%21.3%
Video/Podcasts2.4%2.4%3.0%3.2%
Meetings10.9%12.2%16.3%15.7%
Telephone9.3%9.4%11.0%11.2%
Overall6.9%9.0%11.0%12.9%

#参考文献

編集