arXiv (CV)AI
TITLE_JA: MetaWorld:単一視点動画データからマルチエージェント動画世界モデルをスケーリング
MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
動画世界モデルは具現化AI(Embodied AI)とメタバースの基盤となる生成技術ですが、既存のアプローチは単一のエージェントが一つの視点から観察する場合に限定されています。これらのモデルをマルチエージェント設定に拡張することは、深刻な課題をもたらします。まず、協調的なマルチビュー録画は一般的なオープンドメインシナリオでは採取コストが非常に高くつくというデータ不足の問題があります。次に、独立して生成された動画ストリームでは、共有される物理環境と出来事が異なるビュー間で一貫して進化することを保証できないという世界状態の整合性の問題があります。
これらの課題に対処するため、研究チームは単一視点動画から直接、オープンドメイン環境へマルチエージェント動画世界モデルをスケーリングする新しいフレームワーク「MetaWorld」を提案しました。Monocular World-State Unrolling(MWSU)を導入することで、単眼動画をカメラオペレーターの自我運動と可視対象の空間軌跡に明示的に分解します。このカメラ軌跡分解により、マルチカメラセットアップを必要とせずに、共有される3D空間内で同期されたマルチエージェント運動データが自然に抽出されます。
正確な視覚制御のため、Subject-Aware World Generatorを開発し、エージェントごとの識別画像に条件付けされた外観駆動型シミュレーションを実現しています。両視点が同じ物理的現実に基づいているることを保証するため、World-State Alignment(WSA)を提案しました。これは動画DiTのすべてのトランスフォーマー層に挿入されるフレームごとのブランチ間クロスアテンション機構です。復調プロセスを共同同期することで、WSAは静的な幾何学的一貫性と動的な運動一貫性の両方を強制し、共有3D環境と物理イベントが両視点間で十分に整合していることを確保します。広範な実験により、MetaWorldは優れたクロスビュー一貫性とアイデンティティ忠実度を達成し、マルチエージェント動画世界モデリングの高度にスケーラブルな物理駆動型パラダイムを確立しています。