arXiv (Robotics)AI
TITLE_JA: 視覚言語モデルを用いた時間論理ガイド付きゼロショット自然言語ナビゲーション
ViTL: Temporal Logic-Guided Zero-Shot Natural Language Navigation via Vision-Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボットが自然言語のコマンドを理解して複数のタスクを順序立てて実行することは、自律移動ロボットの研究において重要な課題です。本研究で提案されるViTLは、この課題に対するユニークなアプローチを示しています。従来のゼロショット物体ナビゲーション手法は、視覚言語モデル(VLM)を活用して単一の目標物体への到達に限定されていました。しかし現実世界では「椅子かソファのどちらかをきれいにしてから、テレビをつけてください」といった複数の目標を時間的制約のある順序で実行する必要があります。
ViTLフレームワークはこの問題を2つのレベルで解決します。タスクレベルでは、大規模言語モデル(LLM)を用いて自然言語コマンドを線形時間論理(LTL)式に変換し、さらに決定論的有限オートマトン(DFA)に変換します。このDFAが複数チャネルの価値マップを調整し、新しい物体が検出された際に動的な再計画を促発します。ナビゲーションレベルでは、方向スコア(directional score)という新しい手法が導入されました。従来の方向不可知的な価値スコアではなく、観測画像上のフロンティア方向にラベルを付け、VLMから方向ごとのスコアを抽出することで、より精密なナビゲーション判断が可能になります。
Habitat-Matterport 3D(HM3D)環境での実験により、ViTLフレームワークが時間制約を持つ自然言語ナビゲーションタスクのゼロショット長期実行を実現し、方向スコアがベースライン手法と比較して単一目標ナビゲーションの精度と効率性を大幅に改善することが実証されました。この研究は、複雑な自然言語命令をロボットが理解し実行する能力の向上に大きく貢献する成果です。