arXiv (AI)AI
DeFAb:基盤モデルにおける欠陥的仮説推論の検証可能なベンチマーク
DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
人工知能の推論能力を測定する新しいベンチマークが発表されました。DeFAbと呼ばれるこのデータセットは、欠陥的仮説推論(defeasible abduction)という論理的推論タスクに基づいています。これは異常を説明するために既存のルールを上書きしながら、関連のない期待値は保持するという複雑な推論プロセスです。研究チームは40年分の公開知識ベースを活用し、372,648以上のインスタンスと33.75百万の物質化ルールから成る包括的なベンチマークを構築しました。
評価結果は衝撃的です。従来のルールベース論理ソルバーは50マイクロ秒以下で100%の精度を実現しますが、最先端の言語モデルでさえ65%の精度にとどまり、レンダリング堅牢性評価では23.5%まで低下します。これはモデルが異なる表現形式に対して脆弱であることを示しています。DeFAbは372,648以上のインスタンスを3段階の難易度で提供し、各假説は多項式時間での検証、保守性、最小性チェックを通過する必要があります。つまり、流暢だが論理的に矛盾した回答ではなく、厳密な理論構築能力を測定しているのです。
4つの最先端モデルを検証した結果、レンダリング堅牢性評価のレベル2精度は7.8~23.5%と低く、チェーン・オブ・ソート戦略による分散は約36ポイントに達しており、モデル間のギャップより大きいことが判明しました。さらに難度の高いDeFAb-Hardでは最高モデルが53.3%に対して記号ソルバーは100%です。研究チームはHuggingFaceで無償公開し、優先度最適化(DPO、RLVR/GRPO)の報酬関数としても利用できるようにしました。この研究は言語モデルの論理的推論能力の深刻な限界を明らかにしています。