xAI API、Grok の STT と TTS を単体提供
xAI は Grok Speech to Text(STT)と Grok Text to Speech(TTS)を、チャット推論 API とは独立した音声専用エンドポイントとして公開した。Grok Voice、Tesla 車載、Starlink のカスタマーサポートと同じ基盤を謳い、音声エージェント、リアルタイム文字起こし、アクセシビリティ、ポッドキャスト、双方向の音声体験などへ組み込む前提で REST と WebSocket を用意している。
- STT: 長尺ファイル向けの REST と、低遅延の WebSocket ストリーミング。単語単位のタイムスタンプ、話者ダイアライゼーション、マルチチャンネル入力に対応し、数値・日付・通貨などを整形する Inverse Text Normalization を有効化できる。
- STT: 25 言語以上の多言語を扱い、録音とリアルタイムの双方で話者 ID を付与できる。
- TTS: 長文の REST 合成と WebSocket によるリアルタイム生成。
[laugh]、[sigh]、[whisper]などのインラインおよびラップ型のスピーチタグで韻律や感情表現を制御できる。
Speech to Text の料金はバッチで時間あたり 0.10 US ドル、ストリーミングで時間あたり 0.20 US ドルである。Text to Speech は 100 万文字あたり 4.20 US ドルである。詳細と最新のレート制限は xAI API のコンソールで確認できる。
| ドメイン | Grok STT | ElevenLabs | Deepgram | AssemblyAI |
|---|---|---|---|---|
| Phone Call Entities | 5.0% | 12.0% | 13.5% | 21.3% |
| Video/Podcasts | 2.4% | 2.4% | 3.0% | 3.2% |
| Meetings | 10.9% | 12.2% | 16.3% | 15.7% |
| Telephone | 9.3% | 9.4% | 11.0% | 11.2% |
| Overall | 6.9% | 9.0% | 11.0% | 12.9% |