arXiv (CV)AI
医療用マルチモーダル大規模言語モデルの幻覚を抑制する検証可能な解剖学的証拠に基づいた知覚推論ガバナンス
Synergistic Perception-Reasoning Governance: Grounding Medical MLLMs with Verifiable Anatomical Evidence
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチモーダル大規模言語モデル(MLLM)は、臨床的な視覚質問応答(VQA)と放射線科レポート生成において強力な可能性を示していますが、推論時の幻覚が信頼性の高い利用を阻害しています。モデルが医療画像の証拠と矛盾する流暢な結論を生成する問題が存在するのです。既存の対策は通常、追加の学習、外部の検索システム、知識ベース、または複数段階の事後検証に依存しており、これはコストとパイプラインの複雑さを増加させ、モデルやタスク間での汎化性能が限定的です。
このような課題に対応するため、研究者らは訓練不要なエビデンス注入フレームワークを提案しました。このフレームワークは双方向のエビデンス注入を通じて体系的に幻覚を軽減します。実装ではMedSAMを用いて獲得したROI(関心領域)の事前情報を活用し、ROIガイド活性化変調により視覚認識の軌跡を再調整しつつ、解剖学的座標を離散的なセマンティックトークンとして検証可能な外部メモリにマッピングすることで、テキスト推論の軌跡を固定化します。さらに、タスク認識動的ルータを導入し、タスクのセマンティクスに基づいてモダリティ固有の介入を選択し、知覚的グラウンディングと言語流暢性のバランスを保ちます。
評価はLLaVA-1.5-7B、LLaVA-Med-1.5-7B、Qwen3-VL-8B/32B、InternVL-3.5-8B/38Bを用いて2つのタスクと5つのデータセットで実施されました。制御された消融実験と可視化により、このフレームワークは医療ベンチマーク全体で一貫して既存手法を上回り、閉じた形の精度を最大約6%向上させ、開かれた形の幻覚を約35%削減することが検証されています。コードはGitHubで公開されており、研究コミュニティによる検証と応用が促進される見込みです。