arXiv (Robotics)AI
ビジョン言語アクションモデルは物理的推論を実行していることを検証できない
Position: Vision-Language-Action Models Cannot Be Verified to Perform Physical Reasoning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット操作タスクの性能向上に伴い、インターネット規模のデータから学習した意味表現が物理的実行の汎化に転移するという解釈が広がっている。しかし、本論文が主張する通り、この仮説の根底にある「意味的汎化が物理的アクション決定を支持するのに十分である」という前提は、独立して検証されておらず、現在の評価プロトコルの下では検証不可能なのである。
VLA(ビジョン言language-アクション)システムは事前学習済みのVLM(ビジョン言語モデル)上に構築されており、ロボット操作ベンチマークで急速に改善された性能を示している。論文は、VLAポリシーを意味マッピングと物理的アクション決定に分解し、支配的な評価指標であるタスク成功率では、これら二つの能力の源泉を区別できないことを示している。その結果、ベンチマーク性能の向上は、意味的マッチング、分布的重複、そして本物の物理的汎化を含む複数の競合する説明と矛盾しないのだ。
さらに問題となるのは、この識別不可能性が「ナラティブドリフト」によって強化されているという点である。連続するシステムが基盤となるコーザルメカニズムを分離することなく、性能向上の先行解釈を継承・強化していくプロセスだ。この制限に対処するため、論文は意味的汎化と物理的汎化を個別に測定するための制御された変動を導入する評価設計に基づく研究方向を提案している。このような設計により、モデル内部へのアクセスなしに性能をコーザルに帰属させることが可能になり、VLMバックボーンの役割を暗黙的な物理的能力の源泉ではなく意味インターフェースとして実証的に評価できるようになるのである。