arXiv (AI)AI
IMCBench:画像ベースの医療会話に対応するマルチモーダルLLMのベンチマーク
IMCBench: A benchmark for multimodal LLMs in Image-grounded Medical Conversations
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)とビジョン言語モデルの進化により、医療分野における臨床意思決定支援やトリアージなど、複数の種類のデータを組み合わせた推論が可能になってきました。しかし既存の医療AI評価基準には課題があり、複数ターンの対話には対応しているものの画像がない場合や、マルチモーダル入力を提供しても単一ターンの質問応答タスクに限定されるものが多く、実際の臨床現場のニーズを反映していません。このギャップを埋めるため、研究者らは「IMCBench」という新しいベンチマークを開発しました。
IMCBenchは実際の公開臨床画像と合成患者プロファイルを組み合わせた、画像付きの複数ターン医療会話ベンチマークです。患者と医療者の現実的な相互作用をシミュレートするこのシステムでは、各会話が安全性、正確性、診断における不確実性の適切な活用という3つの臨床的側面で評価されます。研究チームはClaudeやGPT、Nova、Llamaの4つのモデルファミリーから8つのマルチモーダル最先端モデルをベンチマーク対象とし、臨床専門家の注釈に基づいて較正されたLLM-as-Jury採点法を用いて1~5段階で採点しました。
その結果、Claude Opus 4.6が最高得点の3.61を獲得し、次にClaude Sonnet 4.6(3.30)とGPT-5.2(3.29)が続きました。しかし全次元で支配的なモデルは存在せず、悪性腫瘍と稀な疾患の両方について安全性が低下(各々−0.27)していることが判明します。さらに詳細な分析から、画像入力と電子医療記録(EHR)コンテキストの両方が安全なガイダンスに貢献することが示唆されました。正確な臨床記述が必ずしも安全な患者ガイダンスを保証しないという知見は、医療AIにおける多次元的な評価フレームワークの必要性を強調しています。