arXiv (Robotics)AI
VLAMotor:エージェントベースのデータ合成による視覚言語行動モデルのテスト主導的強化
VLAMotor: Test-Guided Enhancement of Vision-Language-Action Models via Agent-BasedData Synthesis
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット操作などの現実世界のタスクを実行するVision-Language-Action(VLA)モデルは、訓練データに依存する学習パラダイムに制約されており、展開後のエッジケース構成で失敗しやすいという課題を抱えています。このような問題に対処するため、研究者らは高品質な失敗モードを検出し、それらを用いてモデルを改善する仕組みが不可欠であると認識しています。既存の研究の多くは失敗検出に留まり、検出された失敗をモデル修復に活かすメカニズムが不足していました。
このギャップを埋めるために、新たに提案されたのがVLAMotorというVLA強化のための分析フレームワークです。このフレームワークは距離認識モデルテストによる失敗暴露とエージェントベースのデータ合成によるモデルファインチューニングを統合しています。VLAMotorはまず訓練サンプルからの距離に基づいて入力の不確実性を推定し、不確実性ランキングと冗長性排除を組み合わせることで、多様な失敗を暴露するコンパクトなテストセットを構築します。その後、失敗軌跡を構造化された意味表現に抽象化し、パラメータ化された修復スキルシーケンスを計画します。これらは逆運動学と動作実行を通じて実行可能な軌跡として実現されます。
得られた成功軌跡は自動的にラベル付けされ、元のVLAモデルのファインチューニングに使用されます。4つの代表的なロボット操作タスクでの評価により、VLAMotorが生成したシミュレーション内テストケースの92.33%がVLAの失敗を引き起こし、最先端ツールと比べてテストカバレッジが18.93%向上しました。失敗したテストケースから導出された合成データでVLAモデルをファインチューニングすることにより、VLAモデルの全体的な成功率が49.25%向上します。実際のハードウェアに展開された場合、シミュレーション強化モデルは元のVLAモデルに対して57.50%の成功率向上を実現し、VLA強化のための効果的かつ低コストなアプローチの有効性を実証しています。