arXiv (CV)AI
ビジョン言語意思決定における知覚的ボトルネックを打破:フォーカスプラン生成による深いシーン理解の実現
Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット操作やナビゲーションなどの具現化されたビジョン言語意思決定タスクにおいて、ビジョン言語モデル(VLM)とビジョン言語アクションモデル(VLA)は強力なツールとして活用されています。VLMは長期的な計画立案に優れており、一方VLAは反応的な制御に優れているという特性を持っています。しかし両者は同じ問題に直面しており、それが知覚的ボトルネックです。タスクに関連のあるオブジェクトと無関係な要素を区別できないため、視覚的ハルシネーション(幻覚)が発生し、パフォーマンスが制限されています。
この課題を解決するために、研究者らはSceneDiverという手法を提案しました。これは粗いレベルから細かいレベルへと段階的に進むフォーカスプラン生成方法で、VLMの長期計画能力を活用します。まず全体的なシーングラフを構築して初期的な理解を確立し、その後、認識、理解、分析の反復サイクルを通じてタスクをより単純な部分問題へと段階的に分解していきます。
反応的な制御を実現するため、研究チームは軽量なアダプター設計も行いました。これにより、VLMで習得した考慮深いフォーカス能力をVLAに蒸留できます。標準的な具現化AI ベンチマークでの評価により、提案手法がVLMとVLA両者における視覚的ハルシネーションを大幅に削減し、同時に高速実行が必要なタスクにおいても計算効率を保つことが確認されました。