編集

Qwen3-TTSファミリーがオープンソース化、音声デザインやクローン機能を提供

Alibaba CloudのQwenチームが、音声生成モデル「Qwen3-TTS」ファミリーをオープンソース化した。1.7Bと0.6Bの2サイズを展開し、音声クローン、音声デザイン、テキストからの音声生成など包括的な機能を提供する。

日本語を含む10言語に対応し、独自の12Hzマルチコードブック音声エンコーダにより高効率な圧縮と高忠実度な復元を実現。Dual-Trackモデリングにより、最初の文字処理後すぐに音声パケットを配信する高速なストリーミング生成が可能となっている。GitHubおよびHugging Faceにて公開されている。

Hugging FaceにQwen3-TTS Demoが公開されている。

出展:Qwen3-TTS Family is Now Open Sourced

編集