arXiv (ML)AI
TITLE_JA: オープンウェイトの大規模言語モデルにおけるエラー重大度の重尾分布「エラークエイク」
ERRORQUAKE: Heavy-Tailed Error Severity Distributions in Open-Weight Large Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の性能評価において、従来は単一の正確度スコアが用いられてきました。しかし、同じ誤りでも「間違った日付」と「捏造された判例」では、その影響度は桁違いに異なります。新たな研究は、この見落とされてきた「エラー重大度の分布」という概念に光を当てています。arXivに発表された論文「Errorquake」は、オープンウェイト21モデルを対象に、8領域と5段階の難易度にわたる10,000クエリベンチマークを構築し、各応答を0~4の連続スケールで重大度を採点しました。
研究の核心は、同じ精度を持つモデルでも、エラーの重大度分布パターンが劇的に異なることを実証したことです。地震の規模を表すグーテンベルク・リヒター則になぞらえ、モデルごとに重大度分布指数(パラメータb)を推定したところ、210モデルペアのうち85ペアで95%信頼区間が完全に分離していました。例えば、Deepseek-v3.2とMinistrAL-14bは同じ精度レベル(ε=0.586)でありながら、重大度分布指数がΔb=0.47と大きく異なります。
論文では519件の3評価者による人間による検証研究も実施し、測定の信頼性(ICC値=0.85)を確認しました。さらに興味深い発見として、エラーの種類は重大度によって分類的に変化することが明らかになりました。低重大度のエラーの71%は検索ミスであるのに対し、高重大度のエラーの39%は完全な捏造です。この構成はモデルサイズによっても有意に異なり、研究は「Non-Reducibility定理」を証明することで、重大度プロファイルと誤り率が情報的に冗長ではなく、b分散の64.5%は精度からは説明できないことを示しました。