arXiv (Robotics)AI
TITLE_JA: Efficient-WAM:低コストな未来予測を備えた10億パラメータの世界行動モデル
Efficient-WAM: A 1B-Parameter World-Action Model with Low-Cost Future Imagination
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット制御における新しいアプローチとして、World-Action Models(WAMs)が注目を集めています。このモデルは、将来の視覚情報を予測しながら同時に行動を生成することで、ロボットの知覚と制御を統合しています。しかし従来のWAMsは、フォトリアリスティックな将来予測に依存しており、これが高い計算負荷と推論遅延をもたらすため、ロボットのリアルタイム運用が困難でした。
この課題に対応するため、研究チームはEfficient-WAMを開発しました。このモデルは、将来予測の計算コストを削減しながらも、その制御効果を維持することを目指しています。具体的には、WAN-2.2-5Bから転移学習した小規模なビデオ専門家モジュール、トークン効率的なビデオ潜在表現、そして非対称なビデオ行動デノイジング手法を採用しています。非対称デノイジングでは、ビデオよりも行動生成に多くのサンプリングステップを割り当てる設計になっています。
重要な点として、Efficient-WAMは将来のビデオ予測を視覚的忠実性の最適化ではなく、行動生成のためのコンパクトな指導信号として扱っています。これにより、予測画像がやや粗い品質であっても、強力な行動制御性能を維持することが可能になります。
RoboTwin 2.0と実世界のマニピュレーション(物体操作)タスクでの広範な実験により、わずか10億パラメータのEfficient-WAMは、物理的なロボット配置時に1チャンク当たり約100ミリ秒の遅延を実現し、既存のWAMsと比較して30倍の高速化を達成しながらも、競争力のある制御能力を維持することが実証されました。