arXiv (NLP)AI
Know2Guess:大規模言語モデルの知識境界評価のための汚染対応マルチゾーンベンチマーク
Know2Guess: A Contamination-Aware Multi-Zone Benchmark for Knowledge-Boundary Evaluation in Large Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の信頼性を適切に評価することは、AI技術の実装において極めて重要な課題です。本研究が提示する「Know2Guess」は、LLMがいつ質問に答えるべきか、あるいは答えられないことを認めて応答を控えるべきかを測定するための新しいベンチマークです。従来の評価方法では、データの汚染(学習データへの混入)やプロンプトの特殊性、単なる拒否行動などが評価結果を歪める可能性がありました。このベンチマークはそうした要因を明確に分離して評価できるよう設計されています。
ベンチマークは5つの異なる領域にわたって1,200の評価項目を含み、明示的な棄権期待値と汚染リスクメタデータを備えています。評価では、FLAN-T5、Qwen2.5-Instruct、Llama-3-Instructの3つのモデルを、厳密なパーサーと正規化ロバストネスパーサーという2つの解析方法で検証しました。ロックされた「答えるか棄権するか」のプロンプト条件、答えのみのコントロール条件、複数のプロンプトテンプレート変種の下で実験が行われています。
結果として、単なる非回答行動では問題は解決されないことが明らかになりました。FLALNベースラインは適切な棄権において弱いままである一方、より高度な命令微調整モデルでは、回答から棄権への遷移が選択的かつ不完全であることが露呈しました。Qwen2.5-3B-Instructが全体的な信頼性で最高の成績を収めたものの、回答が期待される領域では依然として困難が残り、キャリブレーション精度は低く、無害な項目への拒否も持続しています。
このベンチマークはプロンプトとパーサーのロバストネス分析を通じて、主要なランキングと定性的結論を保持しており、回答可能性、棄権、拒否、汚染をLMM信頼性の相互作用する異なる側面として監査するための再現可能なプロトコルを提供しています。データセットはGitHubで公開されています。