arXiv (CV)AI
教師モデル統合エンドツーエンド蒸留による高品質2ステップ画像生成
High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
拡散モデルの蒸留技術は4~8ステップの画像生成において成熟段階に達しつつありますが、さらに2ステップへの短縮は依然として大きな課題となっています。今回発表された「Z-Image Turbo++」は、8ステップの教師モデルであるZ-Image Turboから蒸留された、高品質な2ステップ画像生成モデルです。このモデルが実現する革新的な成果は、2ステップ生成における三つの効果的な設計選択に基づいています。
まず、分布整列的対抗学習(Distribution-Aligned Adversarial Learning)という手法が導入されています。これは従来の外部実画像ではなく、教師モデルが生成した画像を実サンプルとしてGAN学習に用いるもので、より達成可能で情報量の多い対抗的目標を提供します。次に、ステップ非結合パラメータ化(Step-Decoupled Parameterization)により、二つのノイズ除去ステップに独立したモデルパラメータを割り当て、各ステップの異なる容量要求に適切に対応します。
さらに、反復正則化を伴うエンドツーエンド訓練が採用されており、これにより第一ステップが最終画像品質からの勾配を受け取りながらも、明示的な第一ステップ損失を通じて意味のある中間生成を保持することが可能になります。これらの設計を組み合わせることで、2ステップと8ステップ生成の品質ギャップを定性的・定量的評価の両面で大幅に縮小し、少ステップ生成における品質と効率のトレードオフ改善に向けた慎重に最適化された蒸留戦略の可能性を実証しています。