arXiv (CV)AI
Chorus II:効率的な画像から動画への生成のための横断的リクエストのスパース性再利用
Chorus II: Cross-Request Sparsity Reuse for Efficient Image-to-Video Generation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
画像から動画を生成する拡散モデルの運用は計算量が膨大であり、大規模なデプロイメントに向けた大きな課題となっている。実際のI2V(Image-to-Video)のワークロードでは、反復されるエフェクトテンプレート、関連する被写体、繰り返されるショットレイアウトなど、類似したリクエストが頻繁に発生する。既存のクロスリクエスト高速化手法は主に特徴量再利用を通じてこの冗長性を活用してきたが、新しい研究では別の視点からのアプローチを提案している。
類似したI2Vリクエストは、高度に一貫性のあるスパース注意パターンを共有することが観察された。この特性を活かすことで、過去のリクエストから得られたスパースマスクをリクエスト条件付き事前知識として機能させることが可能になり、オンライン上でのマスク予測オーバーヘッドはほぼゼロに近づく。提案されたフレームワークはスパース性再利用を中核としており、オプション拡張として特徴量再利用が組み込まれている。この拡張は軽量なガイダンス強化によって保護されている。
スパース性再利用は共有スパースマスク再利用として実装され、類似の過去リクエストから高品質なスパースマスクを再利用することで、リクエストごとのオンラインマスク予測を回避する。特徴量再利用はオプション機能として、高度に冗長な時空間領域に対してダウンサンプル計算を適用し、境界アーティファクトを軽減しながら効率性を保つ。ガイダンス強化は再利用後に画像とテキストの条件付けを強化し、意味的ドリフトと条件準拠の問題を軽減する。
実験結果によれば、デフォルト設定のスパース性再利用は生成品質を保ちながら2.16倍の高速化を実現している。このアプローチにより、大規模なビデオ生成サービスの展開がより現実的になる可能性がある。