arXiv (CV)AI
TITLE_JA: ImageWAM:ワールドアクションモデルは本当にビデオ生成が必要か、それとも画像編集で十分か?
ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット制御のための世界モデル(WAM)は従来、ビデオ生成を使用して視覚的な世界認識とロボット動作予測を結びつけてきました。しかし、ビデオベースのWAMには3つの相互に関連した課題があります。まず、複数フレームの密集した将来トークンが推論コストを増加させ、次にビデオ全体の予測がロボットの動作とは関係ない時間的・外観的な細部に計算容量を浪費し、最後に長期的な将来予測は誤りが蓄積しやすく、動作予測を誤導する可能性があります。
こうした問題を踏まえ、研究チームはImageWAMという新しいフレームワークを提案しました。このアプローチは事前学習済みの画像編集モデルをロボット動作予測に転用するもので、ビデオ生成とは異なる視点から課題を解決します。画像編集は、目標フレームへの変換のみをモデル化すればよく、動作に関連した現在から目標への視覚的差異にのみ焦点を当てられます。さらに、編集事前学習を通じてタスク指示を局所的な視覚変化に結びつけることができるため、より適切な事前知識を提供できるのです。
実装では、ImageWAMは推論時に目標フレームをデコードせず、代わりに画像編集のデノイジング処理で生成されたKVキャッシュを利用して、フロー一致の動作専門モデルを条件付けします。このコンパクトな世界・動作コンテキストが効果的に機能します。実験結果から、ImageWAMは追加のポリシー事前学習なしに標準的なVLAベースラインや競争的なWAMを上回る性能を示しました。同時に計算量をビデオベースWAMの6分の1に、レイテンシを4分の1に削減することに成功しています。さらに注意メカニズムの分析から、編集キャッシュはタスク関連の変化領域に焦点を当てており、画像編集がビデオベースの世界・動作モデリングの効果的な代替案となることが実証されました。