arXiv (CV)AI
TITLE_JA: LooseControlVideo:空間ブロッキングを用いた映像の直感的な制御手法
LooseControlVideo: Directorial Video Control using Spatial Blocking
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
テキスト入力から動画を生成する技術において、複数のオブジェクトが登場するシーンで正確な3D空間制御を実現することは大きな課題です。既存の深度条件付きモデルは構造的な忠実性には優れているものの、変形可能なオブジェクトを含む動的なイベントに対して、フレーム精度での細かな指導が必要になるため、制作者の負担が大きくなっていました。
こうした問題に対して、新たに提案されたLooseControlVideoフレームワークは、「ブロッキング」という映画制作の手法を応用しています。このアプローチでは、疎な3Dボックスを方向情報とともに使用することで、ユーザーが高レベルのレイアウトと物体の軌跡を直感的に指定できるようになります。一方、動画生成モデルは自動的にリアルな遮蔽、動力学的相互作用を生成します。この実現のため、研究チームはWan 2.2バックボーンを使用して、DNOCS(3Dサイズ、方向、深度順序の遮蔽を表現する新規エンコーディング)でアノテーションされた動画データセット上でファインチューニングを行いました。
さらに本手法は、ジャンプの軌跡調整や相互作用の追加といった局所的な改良を、グローバルなシーンコンテキストへの悪影響を最小限に抑えながら実行することができます。nuScenes、HO-3D、BEHAVEベンチマークでの広範な評価により、LooseControlVideoは既存の2Dボックスおよび光学フローベースの手法を大きく上回る性能を示しました。軌跡誤差で1.2~3倍、剛体運動の一貫性で2倍、遮蔽精度で1.5~2倍の改善が確認され、向き付き3Dプリミティブが複雑なマルチエージェント動画制作の優れた幾何学的事前情報となることが実証されています。