arXiv (CV)AI
CineOrchestra:映像生成のための統一されたエンティティ中心制御フレームワーク
CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
映画的な映像制作には、複数の被写体の動きや相互作用、意図的なカメラ運動、ショット転換などの複雑な要素が含まれます。現在のテキストから映像への生成モデルでは、これらの要素を同時に細かく制御することが難しい状況が続いていました。既存の研究は、マルチサブジェクトのパーソナライゼーション、時間軸の制御、マルチショット合成、カメラ制御といった個別の要素に対応していますが、これら4つの要素を統合したフレームワークは存在していません。
新たに提案されたCineOrchestraは、被写体、イベント、カメラ、ショット転換を同時に制御できる統一的なビデオ拡散モデルです。このモデルの核心的な洞察は、これらの多様な映画的要素が共通の構造を持つという点にあります。つまり、各要素は特定の時間間隔で作用するエンティティとして表現でき、すべてが統一されたエンティティ中心の制御プリミティブを通じて表現できるのです。視覚的なエンティティには参照画像を付与することで、これを実現しています。
この定式化により、アーキテクチャの課題は単一の位置エンコーディング問題に還元されます。研究チームは、パラメータフリーの2つの協調型ロータリー埋め込みでこれを解決しました。1つは間隔サンプリングされた時間的RoPEで、劇的に異なる期間のイベント間で一貫した注意動作をもたらします。もう1つは2次元のエンティティ時間クロスアテンション RoPEで、エンティティごとの条件を明確化し、各条件を対応する時空間領域にルーティングします。
2つの新しいベンチマークでの評価では、CineOrchestraは6つの専門特化モデルを凌駕し、密集字幕フォローとショット転換タイミングにおいて一貫した改善を示しました。ペアワイズユーザー研究とコンポーネントのアブレーション研究でも、その有効性が確認されています。