arXiv (CV)AI
TITLE_JA: 医療用大規模視覚言語モデルにおける細粒度嗜好最適化の分析と改善
Analyzing and Improving Fine-grained Preference Optimization in Medical LVLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模視覚言語モデル(LVLM)は医療画像解析を含むさまざまなタスクで高い性能を発揮していますが、事実の矛盾や視覚的根拠の不足、臨床的に意味のあるフィードバックとの不整合という課題に直面しています。これまでの事後学習アライメント手法、特にDPO(Direct Preference Optimization)とその亜種は、医療領域において3つの重大な制限を抱えていました。まず、系列レベルの報酬信号が、臨床的に重要なトークンと一般的な補足情報を区別せず扱ってしまいます。次に、静的な教師あり微調整の参照応答への依存が、分布シフトを引き起こし、臨床的正確性よりもスタイル的な人工物への最適化を促進させます。さらに、アライメント目標が明示的な視覚的根拠制約を欠いており、診断上決定的な微細な病理学的特徴に対するモデルの感度が不十分です。
本研究が提案する手法は、双方向トークン単位のKL正則化器と視覚的対比学習による根拠化目標を組み合わせています。この根拠化目標は、正常な画像と病変が人為的に加えられた画像のペアリングを通じ、十分な視覚的証拠なしに生成された応答に対するペナルティを与えます。これらのコンポーネントが連携することで、細粒度的でオンポリシーなアライメント枠組みが実現されます。このフレームワークは、モデル生成の出力を最小限の編集により嗜好ペアを構築し、臨床的に誤ったテキストのみを修正しながら元の言語的スタイルを保持します。医療画像処理タスクと臨床テキスト生成ベンチマークにおける広範な実験により、本アプローチの有効性が検証されました。