arXiv (CV)AI
TITLE_JA: DTG-Restore:生成ビデオ超解像度化のための訓練不要な拡散モデル改善手法
DTG-Restore: Training-Free Diffusion Refinement for Generative Video Super-Resolution
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
近年の動画拡散モデルの発展により、高い生成品質が実現されていますが、これらの事前学習モデルを復元タスクに活用する際には、標準的なClassifier-Free Guidanceにおける条件付きブランチと無条件ブランチの強い結合が課題となっていました。本研究では、これら二つの信号を時間軸で分離し、歪んだ低解像度ビデオの復元を実現する訓練不要なフレームワークを提案しています。
提案手法のDecoupled Time Guidance(DTG)では、無条件ブランチをより清潔な拡散タイムステップで評価することで、幾何学的構造を保持しながら歪んだコンテンツの複製を抑制するような先読み的事前情報を獲得します。このプロセス全体を通じて時間的バイアスを徐々に減少させることで、構造補正から詳細改善への段階的な移行が可能になり、モデルの再訓練が不要になります。任意のオフザシェルフな復元モジュールと組み合わせるだけで利用でき、AI生成ビデオと実世界のビデオの両方において知覚的一貫性と妥当な構造復元を実現します。
評価を支援するため、研究者らは複数のテキスト・ツー・ビデオモデルから生成された歪んだ480pビデオ4,400本を含むGenWarp480ベンチマークを構築しました。このベンチマークは顔の歪み、身体のミスアライメント、空間的アーティファクトといった特性的な生成劣化に焦点を当てており、生成エラーに対するロバスト性を評価するための目的別テストベッドとなっています。広範な実験を通じて、本手法がモデル訓練なしで構造的忠実度と時間的安定性において大幅な改善を達成することが実証されています。