arXiv (Robotics)AI
Foresight:ナビゲーション時に重要な手がかりについての反復的推論
Foresight: Iterative Reasoning About Clues that Matter for Navigation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
オープンワールド環境での言語指示に基づくマップレスナビゲーションは、不完全に指定された目標を解決し、目的地到達に関連する環境の手がかりを推論することが課題となります。例えば、視野の外にある目的地に到達するには、道の先にあるスロープ、標識、迂回路といった視覚的手がかりを解釈し、進むべき方向やルートを判断する必要があります。従来の研究は既知のナビゲーション要因や限定されたカテゴリに依存していたり、運動計画の前に手がかりを特定し、計画に依存した手がかりを見落としたりしていました。
本研究では、事前学習された汎用ビジョン言語モデル(VLM)が新規の指示関連手がかりを発見できると主張しています。テスト時フレームワークであるForesightは、微調整されたVLMが画像空間での運動計画の提案と、言語目標および視覚的文脈を用いた批評を交互に実行する仕組みになっています。その後の計画は以前の批評に基づいており、実行前の反復的な運動精緻化を可能にしています。
計画批評と精緻化をオープンセットの行動嗜好に合わせるため、研究チームは人間フィードバックから報酬モデルを学習し、それを用いて計画批評ループ内で強化学習によるVLMの事後学習を行いました。オフライン評価と6つの実世界環境でのテストにより、Foresightは平均タスク成功率を37%向上させ、ミッション当たりの介入を52%削減し、Jetson AGX Orinでリアルタイム実行可能であることが確認されました。研究チームはロボット運動精緻化のためのテスト時推論に関する今後の研究を支援するため、コード、データ、学習詳細を公開する予定です。