arXiv (NLP)AI
コイン投げの判定官?LLMを用いた評価の信頼性とバイアスに関する研究
The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
LLM(大規模言語モデル)を判定官として用いるアプローチは、モデルの出力をランク付けしたり報酬モデルの学習に活用したり、公開リーダーボードにデータを入力したりするなど、現代のAI評価において広く採用されている手法です。しかし、その実行の信頼性がどの程度であるかについては、これまで十分な検証がなされていませんでした。本研究は、OpenAIが提供するGPT-4o-miniとGPT-4.1-miniという2つのジャッジモデルを用いて、10カテゴリーにわたる29のタスクで同一の評価を繰り返し実施する大規模な調査を行いました。各質問につき50回のペアワイズ試行と50回のポイントワイズ試行を実施した結果、驚くべき不安定性が明らかになりました。
ペアワイズの嗜好判定は平均13.6%の確率で結果が反転し、質問の28%が20%を超える反転率を示し、中には56%に達するものもありました。さらにGPT-4o-miniは著しい位置バイアスを示し、最初の選択肢(A)に対して72%の確率で多数派となるという統計的に有意な偏り(p = 0.024)が観察されました。一方、ポイントワイズ評価における平均スコア差は10点満点中0.19~0.36と小さく、統計的に有意ではありませんでした。このギャップにより、判定官は自身のスコアが質的な差を示していないにもかかわらず勝者を選択することが多いという、内部矛盾が生じていることが示唆されました。
異なるジャッジ間の一致率は76%に過ぎず、Cohenのカッパ値は0.51と中程度の一致しか示しませんでした。さらに、意味的に同等のプロンプト表現を使用すると、テストケースの25%で多数派の判定が変わります。決定論的デコーディングは不一致を減らしますが完全には排除できません。信頼性曲線分析によると、本データセットでは95%の確率で50試行のリファレンス判定を多数決で復元するために平均11回の繰り返し試行が必要であり、高分散の質問では15回に達することが明らかになりました。これらの知見は、単一試行のLLM判定は高リスクな評価には不十分な可能性があること、そして複数試行の集約、位置のランダム化、明示的な不確実性報告が標準的な慣行となるべきことを示唆しています。