arXiv (Robotics)AI
TITLE_JA: EmbodimentSemantic:具体化操作軌跡における視覚言語モデルの空間シーングラフデータセットとベンチマーク
EmbodimentSemantic: A Spatial Scene-Graph Dataset and Benchmark for Vision-Language Models on Embodied Manipulation Trajectories
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット操作における視覚言語行動(VLA)システムの大きな課題は、空間的な接地表現の不足にあります。現在のモデルは物体認識と言語指示の実行には優れていますが、支持関係、包含関係、順序関係、遮蔽、深度感応的な関係など、物体がどのように空間に配置されているかを明示的に表現することが困難です。研究者らは、具体化操作における関係的接地を評価するための空間シーングラフデータセットとベンチマーク「EmbodimentSemantic」を提案しました。
このデータセットは、有向の「物体-関係-物体」の三つ組として場面を表現し、各三つ組は固定された関係セットを使用して物体の順序付きペア間の空間関係を指定します。この表現により、物体結合、関係予測、空間的一貫性の直接的な評価が可能になります。データセットには低コストのSO101ロボットアームで収集した実世界の操作観察が含まれており、実践的なロボティクス設定における空間接地研究用に生成されたシーングラフが提供されます。
検証制御のため、60,000フレーム以上の操作フレームと、MuJoCoの幾何学、世界座標、カメラ投影、可視性制約から自動導出された120,000以上のカメラ固有シーングラフを含むシミュレータ基盤のLIBEROベンチマークも導入されました。既存のVLAポリシープロンプトにシーングラフを注入して、それが下流制御を改善するかテストされています。オープンソースおよび商用VLM全体での実験結果は、現在のモデルが妥当な関係を予測することはできますが、正確な深度認識およびビューポイント依存的な空間構造の把握に苦戦していることを示しています。EmbodimentSemanticは、VLA操作における視覚言語モデルの空間接地を診断し、その有用性をテストするための統一的なフレームワークを提供します。