arXiv (NLP)AI
分散認識型ルーブリック報酬とGRPOを用いた心臓疾患関連の医療質問応答におけるLLMの改善
Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は医療分野でのアプリケーション開発に大きな可能性を示していますが、実世界への展開には依然として大きな課題が存在します。データプライバシーの制約、推論コストの高さ、エッジデバイスやオンデバイス実行への適合性の限界といった問題により、より小規模で効率的なモデルの開発が求められています。本研究は、こうした背景のもと、心臓疾患関連の医療質問応答タスクにおけるLLMの後学習を目的とした、グループ相対方策最適化(GRPO)の活用を調査しています。
研究チームはRaR-Medicineから派生したルーブリックベースの監督を用いた「分散認識型報酬フレームワーク」を提案しました。この手法は、従来の加重二値基準集約と単一の総合リカート式スコアリングを、ルーブリック基準レベルの成果から導出された連続的な解析報酬関数に置き換えるものです。このアプローチにより、スパースで多基準的、かつ自動検証が困難なフィードバックに対してより豊かな最適化シグナルが提供され、より安定したオンポリシー強化学習が可能になります。
HealthBenchの心臓関連サブセットを用いた検証では、最適なGRPO変種によって、Qwen3-14Bベースモデルの精度が0.362から0.502へ、F1スコアが0.532から0.668へと改善されました。これはGPT-OSS-120Bの性能(精度0.508、F1スコア0.674)と競争力のあるレベルとなっています。
本研究成果は、ルーブリックベースの報酬が医療質問応答の改善における実践的な戦略であり、他のルーブリックベースのタスクへの拡張の可能性も示唆しています。医療分野におけるLLMの信頼性向上と小規模モデルの実用化に向けた重要な知見となるでしょう。