arXiv (NLP)AI
大規模言語モデルのアンサンブルを用いたPubMedにおけるEQ-5D研究の自動検出
Ensembles of Large Language Models for Identifying EQ-5D Studies in PubMed Based on Their Abstracts
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
医学文献の急速な増加に伴い、システマティックレビューにおける手作業による研究スクリーニングは、ますます資源を消費し、効率性と一貫性の課題に直面している。特に健康関連QOL(生活の質)を測定するEQ-5D(5次元EuroQol)データを報告している研究を特定することは、高度な臨床的解釈が必要であり、人間のレビュアーにとって大きな課題となっていた。
本研究では、GoogleのGeminiおよびGemmaという大規模言語モデル(LLM)を活用して、PubMedのバイオメディカルデータベースに登録された論文の抄録のみに基づいて、EQ-5D研究の自動検出を実現することを目指している。研究チームは、少数ショットプロンプティング、重み付けアンサンブル集約、ソフトスタッキングメタ分類器を統合した複数段階のフレームワークを提案した。9つのLLMが、2人の専門家による手作業ラベリングされたPubMed研究データセットで評価された。
gemini-2.5-pro、gemma-3-12b、gemma-3-27bの重み付けアンサンブルは、0.74の加重F1スコアと0.74の精度を達成し、個別モデルの結果を上回った。複数の高性能モデルをアンサンブルすることで、個別モデルと比較して精度と再現率のバランスが向上し、ソフトスタッキング手法はより大きな信頼性と解釈可能性をもたらした。特徴分析により、モデルの確率結果が最終予測を導く重要な要素であることが明らかになった。
これらの知見は、アンサンブルベースのLLM設定が、バイオメディカル研究のスクリーニング自動化における信頼性の高い拡張性のあるアプローチであることを示唆している。