arXiv (Robotics)AI
TITLE_JA: VEGA:幾何学的軌跡監督を用いた自然な一人称視点動画からのナビゲーションVLAモデルの学習
VEGA: Learning Navigation VLAs from In-the-Wild Egocentric Video with Geometric Trajectory Supervision
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボットナビゲーション技術の進化に向けた新たなアプローチが提案されました。VEGAと呼ばれるこの手法は、インターネット上に存在する大量のラベルなし一人称視点動画から、ナビゲーションに特化したビジョンランゲージアクション(VLA)モデルを訓練するものです。従来、このような自然な動画をロボット学習に直接活用することは困難でした。というのも、動画には明示的なナビゲーション目標や障害物を避けた軌跡情報が含まれていないためです。
VEGAはこの課題を単眼ビデオからの局所シーン幾何学の再構成により解決します。テキスト、画像、または空間的なウェイポイントとして表現されたナビゲーション目標をサンプリングし、再構成された幾何情報を用いて障害物を考慮した軌跡を生成するのです。このプロセスを通じて得られた軌跡分布は、フロー マッチング型VLAナビゲーションポリシーの訓練に用いられます。重要な点として、幾何情報は訓練段階でのみ使用され、最終的なビジョンベースのポリシーに障害物回避能力が直接蒸留されます。
研究チームはVEGA-Benchという新しいベンチマークも開発しました。これは250,000シーンと約500万のナビゲーション目標をシーン幾何学と組み合わせた評価データセットで、目標到達度、衝突回避、障害物クリアランスを測定するために設計されています。評価結果では、VEGAが競争力のある目標進行を達成しつつ、衝突を33.0%削減し、障害物クリアランスを17.9%改善したほか、実環境試験では成功率を150%以上向上させ、衝突を66.7%以上削減しました。この研究は、動画から導出される幾何学的監督が、スケーラブルで効果的なナビゲーションVLAの訓練信号となることを実証しています。