arXiv (Robotics)AI
TITLE_JA: 視覚言語行動モデルの汎化性能を向上させる「見る情報を少なく、指示を詳しく」フレームワーク
See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット制御における視覚言語行動モデル(VLA)の汎化性能は、実環境での応用において重要な課題です。背景や照明の変化、視覚的な干渉要素、そして意味的に類似したタスク間での性能低下が、これまでの大きな問題となっていました。新たに発表されたS2フレームワーク(See Less, Specify More)は、このボトルネックを解決するための革新的なアプローチを提案しています。
S2フレームワークの核となる考え方は、ロボットの実行者に対して「より詳細で曖昧性の少ない指示」と「限定された視覚情報」を与えることです。具体的には、元の高レベルな指示を保持しつつ、各軌跡をタスク固有の詳細な言語に再ラベル付けすることで、実行モードの曖昧性を解消します。同時に、視覚的証拠予算という明示的な制約を導入し、実行者がタスク完了に必要な視覚情報のみに焦点を当てるよう訓練します。この手法は領域マスクなどのアノテーションを必要としません。
本研究ではAgiBot G2互換ロボット(TX-G2)とHSRを用いた8つの実ロボットタスクで評価を実施しました。その結果、従来のモデルpi0.5では54.2%であった平均サブタスク成功率が、S2フレームワークの適用により79.0%まで向上することが確認されました。この大幅な改善は、実行者が弱い監督信号から情報を復元する必要がなくなることで実現されています。
これらの結果は、VLA汎化性能の向上には、正確で詳細な局所的指導と、タスク完了に必要な視覚的証拠の効率的な利用が不可欠であることを示唆しています。提案手法は既存の視覚言語モデルプランナーとも互換性があり、実用的な応用展開が期待されます。