arXiv (NLP)AI
UnpredictaBench:大規模言語モデルの分布性ランダム性を評価するベンチマーク
UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)が経済シミュレーションなど様々な分野で実際のエージェントの代替として活用される機会が増えています。しかし多くのLLMは単一の最も妥当な回答へと収束する傾向を持ち、これは現実システムの本来の不確実性を捉えられていないという重大な問題を生み出しています。この課題に対処するため、研究者たちはUnpredictaBenchという新しい評価ベンチマークを開発しました。
UnpredictaBenchは、LLMが真の基礎分布をどの程度正確に捉えることができるかを測定する枠組みです。単に出力の多様性を増やすだけでなく、シミュレーションに必要な「目標分布に校正されたサンプル」を生成する能力を評価します。評価には448個の問題が用意されており、標準統計分布、確率プログラムから導出される分布、ランダムプロセスを記述した自然言語シナリオなど、多様な分布タイプが含まれています。
評価指標としてKS@Nというメトリクスを導入し、コルモゴロフ・スミルノフ統計検定を用いてモデルの出力が目標分布にどれだけ適合しているかを定量化します。複数のオープンソースおよび商用LLMでテストした結果、モデル間で分布捉える能力に大きなばらつきがあることが判明しました。標準メトリクスであるKS@100(サンプルサイズ100)では、スコアはほぼ0%から20%強までの範囲に分布し、どのモデルも40%を超える性能を達成していません。推論プロセスの追加により若干の改善は見られるものの、根本的な解決策にはいたっていないことが示されました。この研究は、LLMを複雑なシステムの代替として使用するための第一段階として、基本的な分布シミュレーション能力の向上がいかに重要であるかを明らかにしています。