arXiv (AI)AI
TITLE_JA: BayesBench:複数ターン証拠蓄積下での大規模言語モデルの信念軌跡を評価する
BayesBench: Evaluating LLM Belief Trajectories Under Multi-Turn Evidence Accumulation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は実際の運用では複数ターンの会話で使用されることが一般的です。各ターンで新しい証拠が提供されると、環境に関する認識的不確実性が低下し、その環境を支配する観測されていない量について推論し、証拠が蓄積されるにつれて信念を更新することが必要になります。合理的に行動するためには、観測された情報から未知のパラメータを正確に推定し、ベイズ統計学に基づいた信念更新が求められます。
しかし、従来の評価手法の大多数は単ターン形式で最終ターンの回答のみをスコア化しており、信念更新のプロセス自体は検証されていません。そこで研究者たちは、LLMの信念更新がマルチターン設定において合理的なベイズ推論者のものとどの程度一致しているかを調査するため、BayesBenchという新しい評価スイートを開発しました。このベンチマークは3つの段階的に複雑なタスクで評価を実施します。第一に、逐次的な証拠から未知のパラメータを推定するベイズ推定、第二に潜在変数についての推論された信念を結果予測に転換するベイズ予測、そして第三に、観測値がユーザーペルソナのフレーミングを通じてフィルタリングされ、潜在状態とペルソナの両方に対する結合推論が必要とされるペルソナフレーム化されたベイズ予測です。
3B~70Bパラメータ規模の7つのLLMに対する評価の結果、モデルのスケーリングにより潜在推論と証拠蓄積が改善されることが確認され、時にはベイズ事後分布と一致する更新が観測されました。しかし、これらの改善は下流の予測タスクに必ずしも確実に転移せず、潜在構造の推論と、それを用いた目標結果についての信念を合理的に更新することの間にギャップが存在することが明らかになりました。