arXiv (CV)AI
聴覚が視覚言語モデルの明確性をもたらす——プロンプト側のセマンティクスに基づく新しい評価手法
Listening makes Vision Clear for VLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
視覚言語モデル(VLM)の性能評価において、従来の手法には大きな課題があることが明らかになった。これまでの研究では、モデルの回答生成時のトークンに対する注意分布を用いて、視覚と言語の一貫性を測定するのが一般的だった。しかし、最も高い注意が向く領域が、必ずしも目的とするセマンティクスなトークンと一致していないという問題が指摘されている。
この矛盾の主な原因は「デコーディングドリフト」と呼ばれる現象にある。これは、以前に生成された回答トークンからの言語的な先入観が蓄積され、視覚的な注意とのズレが生じる状態を指す。さらに、モダリティ境界マーカーなどの構造的トークンが文脈全体を包含し、対象と無関係な領域への高い注意を生み出すという新たな問題も発見された。
これらの歪みを回避し、大規模VLMsに対する一貫性の評価を提供するため、研究チームはプロンプト側のセマンティクスに焦点を当て、「プロンプト・ビジョン・トークン・アクティベーション・マップ(PV-TAM)」を提案した。PV-TAMはさらにモダリティ境界マーカーによる体系的なバイアスを除去するフィルターを組み込んでいる。従来の手法はマスク間の重複のみを評価していたのに対し、PV-TAMの指標は注意分布のピーク値を活用して、プロンプトと視覚領域の間のアラインメントを測定する。実験結果では、PV-TAMは複数のデータセットにおいて、従来の回答側ベースラインよりも注意ベースおよびIoUスタイルのローカライゼーション指標を一貫して改善することが示された。