arXiv (Robotics)AI
TITLE_JA: 人間の動画からロボット操作へ:人間中心データを用いたスケーラブルなビジョン言語行動学習に関する調査
From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
近年、Vision-Language-Action(VLA)モデルの大規模事前学習により、汎用的な具体化制御(embodied control)の進展が加速しています。しかし既存のアプローチの多くは、取得コストが高く特定のロボット形態に密結合した大規模なロボットデモンストレーション集合に依存しています。一方、人間の動画は豊富に存在し、実世界の操作に対する多様なセマンティックおよび物理的手がかりを含む豊かなインタラクションを捉えています。
本調査は、人間の動画がVLAモデルの効果的な知識へどのように変換されるかについて、統一的な見方を提供しています。既存のアプローチを、導出する行動関連情報に基づいて4つのクラスに分類しています。第一に、フレーム間の変化をエンコードする潜在行動表現、第二に将来のフレームを予測する予測的世界モデル、第三に画像平面の手がかりを抽出する明示的な2D監督、そして第四に幾何学または運動を復元する明示的な3D再構成です。
本調査では、この分野における3つの重要なオープンチャレンジを強調しています。第一は、非構造化動画を学習準備の整ったエピソードに構造化すること、第二は、具体化とビューポイントの異質性の下で、動画から導出された監督をロボット実行可能な行動に接地すること、第三は、実世界のデプロイメント性能と転移効率をより良く予測し、将来の研究方向を指南する評価プロトコルを設計することです。