537文字
3分
編集

Irodori-TTS 500M v2とVoiceDesign公開、絵文字制御とキャプション条件付き日本語TTS

Echo-TTS の設計を大筋で踏襲しつつ、日本語向けに Rectified Flow Diffusion Transformer(RF-DiT)と DACVAE の連続潜在上でフロー補間する TTS として Aratako による Irodori-TTS が公開されている。リポジトリは 2026-02-25 の Initial commit で始まり、2026-03-18 に v1 用コードを指す v1 タグが付与された。続く main では 2026-03-22 前後から v2 向け変更が進み、Hugging Face 上ではベース重み Aratako/Irodori-TTS-500M-v2 が 2026-03-23 に作成された。さらにキャプションで話し方を指定する VoiceDesign 系は、同 2026-03-30 に Aratako/Irodori-TTS-500M-v2-VoiceDesign が作成され、GitHub 側でも 2026-03-31 に該当機能追加コミットが積まれている。

#主な機能・特徴

  • 約 5 億パラメータ規模。v2 は 32 次元の Semantic-DACVAE-Japanese-32dim コーデックで 48 kHz 波形を再構成し、学習ステップを従来比おおよそ 2.5 倍に延ばしたほか、テキスト前処理とデータフィルタを厳格化。
  • 訓練テキストに絵文字注釈を付与したデータで学習しており、入力に特定の絵文字を埋め込むことで話し方・感情・効果音寄りの制御が可能。対応一覧はリポジトリおよびモデルカードから辿れる EMOJI_ANNOTATIONS.md
  • ベースモデルは参照音声の DACVAE 潜在をパッチ化して条件化し、短いクリップからゼロショットで声質を近づける Voice Cloning に対応。
  • VoiceDesign チェックポイントは参照音声系のエンコーダの代わりにキャプションエンコーダを用い、スタイル記述テキストで条件付けする経路が用意されている(ベース v2 とは別重み)。
  • 推論は CLI、gradio_app.py / gradio_app_voicedesign.py、Hugging Face Hub のチェックポイント読み込みに対応。ホスト済みデモ用 Space へのリンクもモデルカードに記載。
  • コードは MIT。公開重みもモデルカード上 MIT とされ、なりすましや誤情報用途を禁じる倫理上の注意が併記されている。

入力は日本語に限られ、絵文字制御の再現性は文脈依存でばらつく場合がある。複雑な漢字の読みは同規模の他 TTS と比べ弱めになりうるため、かなへの置き換えが必要になる場面がある。

#参考文献