arXiv (CV)AI
TITLE_JA: PixelEyes:視覚的推論における知覚と推理の分離による正確な証拠探索
PixelEyes: Decoupling Perception and Reasoning for Pinpoint Visual Evidence Seeking
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチターン視覚推論において、大規模マルチモーダル言語モデル(MLLM)が対象物の位置特定に繰り返し失敗し、冗長で長い探索軌跡を生成する問題が指摘されている。本論文で発表されたPixelEyesは、この課題に対して革新的なアプローチを提案する。従来のMLLMが推理と知覚を同一モデル内で行うため、不正確な位置特定が追加の推理ターンをトリガーし、軌跡が肥大化するという問題点を特定し、これを解決するために推理と知覚を明示的に分離する。
PixelEyesが採用する主要な技術は二つある。まず「マスクガイド視覚検索」により、参照セグメンテーションモデルを活用してマスク精度の位置特定を提供することで、推理器が不正確なグラウンディングを補完する必要性を排除する。次に「セマンティック領域幅優先探索(BFS)」により、不正確なサブ領域を繰り返しクロップすることによる冗長なループを排除し、セマンティック領域上での体系的な探索を実現する。
これらの能力をモデルに内在化させるため、既存データから専門家軌跡を再合成することで、PixelEyes-6Kデータセットが構築された。加えて、位置情報が提供されないゼロヒント視覚探索ベンチマーク「Pinpoint-Bench」が導入され、インスタンスレベルのマスクとバウンディングボックスにより位置特定失敗と推理失敗を分離し、不注意盲などの失敗モードの詳細な分析を可能にする。最新の最先端MLLMと視覚推論エージェントでもPinpoint-Benchで大きな改善余地があることから、このベンチマークの質と難度が実証されている。