arXiv (Robotics)AI
人間とロボットの一人称視点データを統合したVLAモデルの事前学習フレームワーク「ACE-Ego-0」
ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
Vision-Language-Action(VLA)モデルは、ロボット操作タスクにおいて大規模で多様な実体化データから恩恵を受けますが、ロボットの軌跡データ収集は費用がかかり労働集約的です。近年の研究では、大規模な人間の一人称視点ビデオが事前学習において相補的な実世界の教師信号を提供することが明らかになっています。しかし、人間とロボットのデータを共同で学習させることは、行動空間、身体構造、時間的ダイナミクス、教師信号の質の違いにより依然として困難でした。
本論文で提案されるACE-EGO-0は、異種のデータソースを統合的に活用するVLA事前学習フレームワークです。人間の一人称視点ビデオから大規模な事前学習教師信号を抽出するため、研究チームはスケーラブルなパイプラインを構築し、生の人間ビデオをロボット形式の疑似行動軌跡に変換しました。これらのラベルをロボットデモンストレーションと比較可能にするため、カメラ空間行動に基づく統一行動表現、形態学的条件付け、時間整列行動チャンキングを採用しています。
一人称視点ビデオから得られるノイズを含む疑似行動教師信号を堅牢に活用するため、ACE-EGO-0は信頼度を考慮した訓練目的関数と人間補助損失を組み込んでいます。これにより、信頼できる信号に教師信号を集中させることができます。4,530時間のロボット・シミュレーションデータと1,480時間の疑似行動ラベル付き人間一人称視点データで学習させた結果、大規模な人間教師信号を信頼度加重下で組み込むことで、統一共同事前学習と教師あり微調整の両方が一貫して改善されました。ACE-EGO-0はRoboCasa GR1 TableTopおよびRoboTwin 2.0で最先端の性能を達成し、現実世界の両手操作タスクへの強い転移学習能力も示しています。