arXiv (ML)AI
TITLE_JA: マニフォルド乖離の軽減:信頼性の高いMLLMデコーディングのための不確実性認識部分空間補正
Mitigating Manifold Departure: Uncertainty-Aware Subspace Rectification for Trustworthy MLLM Decoding
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と矛盾する物体の幻覚を生じる問題を抱えています。この問題は従来、言語プリアーへの過度な依存が視覚コンテキストを上書きすることが原因とされてきました。近年の訓練不要なデコーディング戦略は言語プリアーにペナルティを課すことでこの問題に対処していますが、言語プリアーの二面性を見落としています。言語プリアーは視覚証拠との整合性によって、有益にも有害にもなり得るのです。
特に、言語プリアーを一律に抑制すると、モデルのセマンティックマニフォルドが破壊され、パフォーマンスが低下する現象が生じます。これを「マニフォルド乖離」と呼びます。この課題に対処するため、研究者らはManifold-Guided Adaptive Projection(MGAP)を提案しました。MGAPは幾何学的に認識する訓練不要なデコーディング手法で、幻覚を軽減しながら表現構造を保持します。
MGAPはまずSVDを用いてブラインド隠れ状態から言語プリアー部分空間を構築します。デコーディング中、各マルチモーダル隠れ状態をこの部分空間に投影し、一貫性認識ゲートを適用して投影されたプリアー成分のみを選択的に減衰させます。このアプローチにより、直交するセマンティック成分の大部分が保持されます。
POPEและCHAIRベンチマークでの広範な実験により、MGAPは先行するデコーディング手法を上回り、一貫性を損なうことなくより強力な幻覚抑制を達成することが示されました。