arXiv (CV)AI
TITLE_JA: 一貫性があっても間違っている:空間的ビジョン言語モデルにおける証拠への無感応性
Consistent Yet Wrong: Evidence Insensitivity in Spatial Vision-Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボティクス、自動運転、具現化AI(embodied AI)の発展に向けて、空間推論能力は極めて重要な役割を果たします。しかし、現在のビジョン言語モデル(VLM)は、距離に関する数値的なクエリに対して信頼性を欠いたままです。これまでの一般的な仮説では、異なる視点からの一貫性のある予測は幾何学的な理解が備わっていることを示唆していると考えられてきました。しかし、このような仮説を検証する研究により、実は反対の事実が明らかになりました。最先端のVLMの多くは、答えが間違っていても、視点に関係なく一貫性のある回答を生成する傾向があり、これは予測と視点固有の視覚的証拠との間に弱い結合しか存在しないことを示唆しています。
この問題に対処するため、研究者たちはViewDiagという新しい評価プロトコルを開発しました。これはHypersim、ScanNet、KITTI360といった複数のデータセットから構成される統制された多視点評価フレームワークで、80のシーンにわたって176のオブジェクトペアの軌跡を含み、各軌跡につき2~10の視点から観察できるように設計されています。このプロトコルは、モデルを3つの軸に沿って評価します。第一に数値的精度、第二に予測の分布の集中度、そして第三に内部の特徴崩壊を検出するための潜在特徴プローブで、意思決定崩壊と表現崩壊を区別します。
多様なVLMを評価した結果、一貫した共通パターンが観察されました。それは、高い予測安定性と重大なエラーが同時に存在し、強い一貫性を示しながらも低い精度に留まるというものです。これらの研究結果は、視点間の一貫性を幾何学的理解の指標として利用する一般的な手法に疑問を投げかけます。むしろ、安定した予測は証拠に対する敏感な推論ではなく、事前確率に基づくモデルの内部崩壊を反映している可能性があります。ViewDiagは、空間的VLMの評価に向けて、精度だけにとどまらない統制されたベンチマークと診断フレームワークを提供し、今後の改善への道筋を示しています。