Qwen VLO、プログレッシブ方式の生成モデル

Qwen VLO（Vision Language Object）が発表。

画像生成と編集の両方をサポート。プログレッシブ生成方式で左から右、上から下へ段階的に画像を構築。オープンエンド指示による編集（スタイル転換、背景変更、オブジェクト追加など）に対応。従来のマルチモーダルモデルでは生成プロセスでセマンティックな不整合が発生しがちだったが、Qwen VLO はプログレッシブ生成方式により詳細捕捉能力が向上し、生成プロセス全体で高いセマンティック一貫性を維持。

動的アスペクト比での画像生成が可能。4<1> や 1<3> などの極端なアスペクト比にも対応。多言語指示（中国語、英語）をサポート。

Qwen Chat でプレビュー版として利用可能。

出展：Qwen VLo: From “Understanding” the World to “Depicting” It