arXiv (Robotics)AI
TITLE_JA: ELAN4D:プラグアンドプレイ適応による具体化中心の4D監督がビジョン言語アクションモデルを強化
ELAN4D: Embodiment-Centric 4D Supervision for Vision-Language-Action Models via Plug-and-Play Adaptation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット操作タスクにおいて、ビジョン言語アクション(VLA)モデルの性能向上が求められています。従来のVLAベースの政策は、現在の観察から直接的にアクションを出力する受動的なアプローチに依存しており、将来の動力学を明示的にモデル化していません。この制限により、分布外の摂動が生じた場合の一般化能力が低下してしまいます。
こうした課題に対処するため、研究チームはELAN4Dという新しい枠組みを提案しました。この手法は、ロボットの将来のキーポイント軌跡を予測的な時空間監督として活用することで、VLA政策を強化するものです。固有感覚状態からの前方運動学を利用して、関節やエンドエフェクタなどのロボットキーポイントの3次元変位軌跡を導き出します。外部トラッカーや再構成を必要としない、メトリックでコンパクトな監督信号となります。
ELAN4Dの特徴は、軽量なトラックデコーダを備えたプラグアンドプレイ補助ブランチを採用していることです。勾配隔離を通じて事前学習済みのビジョン言語バックボーンを保持しながら、4D信号をアクション専門家に注入します。推論時にはトラックデコーダを削除するため、基本政策のインターフェースは変わりません。
LIBERO、LIBERO-Plus、RoboTwin2.0、および実世界の操作タスクでの実験結果は、ELAN4Dが強力なVLAベースラインを一貫して上回ることを示しています。特にカメラ角度の変化、背景変化、レイアウト変化を含む分布外摂動下での大幅な性能向上が確認されました。これらの成果は、堅牢で一般化可能な操作政策を構築するための具体化中心4D監督の有効性を明確に示しています。