arXiv (Robotics)AI
ビジョン言語行動モデルの神経記号的安全ガイダンス:制約付きフロー マッチングを用いた予測的衝突回避
Neuro-Symbolic Safety Guidance for Vision-Language-Action Models via Constrained Flow Matching
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット操作タスクにおいて優れた汎化性能を示すビジョン言語行動(VLA)モデルは、実世界での応用が急速に進む一方で、安全性の課題が大きな障壁となっている。従来の安全対策はロボットの次のアクションによる衝突のみを防ぐ受動的なアプローチに留まっていた。この研究は、フロー マッチング型VLAに対して、神経記号的安全ガイダンス機構を提案することで、衝突が起こる前に予測して回避する能動的な安全対策を実現している。
フロー マッチング型VLAは、反復的な神経フロー マッチング処理を通じてアクションの軌跡(複数のアクションの列)を予測することで、次のアクションを決定する。本手法は、安全性の強制を最小ノルム制約付き最適化問題として定式化し、ノイズを含む中間的な軌跡予測のデノイジング過程において安全違反を修正する。予測された軌跡を分析し、反復的なデノイジング中に修正を適用することで、衝突が不可避になる前に予測することが可能となる。
このアプローチは、記号的制約充足と神経的軌跡生成を相互に組み合わせることで、単なる反応的な介入ではなく真の予測的衝collision回避を実現する。SafeLIBEROベンチマークでの評価では、本手法は82.8%の衝突回避率と81.6%のタスク成功率を達成し、単一ステップ手法と比べてそれぞれ6.3%および19.8%の改善を示している。特に長期の複合的な状態遷移が起こるタスクにおいて最大の効果を発揮する。