arXiv (AI)AI
TITLE_JA: CrowdMath:クラウドソーシングされた数学研究討論のデータセット
CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の数学的推論能力は著しく向上していますが、既存のベンチマークは通常、最終的な答えやステップバイステップの解法、完全な証明といった明確に定義された問題を評価しています。しかし実際の数学研究では、複数の参加者が部分的な議論を提案し、先行する段階の隙間や誤りを特定し、誤った推論を修復し、段階的な貢献を綜合して証明を完成させるという、協調的でオープンな問題解決が行われています。このギャップに対応するため、研究チームは「CrowdMath」という新しいデータセットを開発しました。
CrowdMathは、MIT PRIMESとArt of Problem Solving(AoPS)の協力によって2016年から2025年にかけて実施されたCrowdMathプログラムから、164件の専門家による注釈付きの進展チェーンで構成されています。このプログラムは協調的な研究イニシアティブであり、その討論から査読済みの論文が発表されています。データセット内の各チェーンは、複数参加者によるフォーラム討論をオープンな問題提示から完成した証明まで追跡しており、各投稿には部分的な進展、証明の完成、誤った推論、誤り指摘といった、解決プロセスにおける機能的役割のラベルが付与されています。
研究チームは次の投稿を予測するタスクや投稿の役割分類などの評価タスクを定義し、6つの最先端モデルでベンチマークテストを実施しました。モデルは次の投稿予測で83~88%の精度を達成し、数学的討論の局所的な流れを追えることが示唆されました。しかし、個々の貢献の機能的重要性を識別することには苦戦しており、最高性能モデルでも投稿役割分類で0.42マクロF1スコアにとどまっています。
このCrowdMathデータセットは、明確に定義された数学の問題を解くことと、協調的な数学的進展を現れるままに理解することの間に存在する重要なギャップを浮き彫りにしています。これは今後のLLM開発において、より動的で相互作用的な推論能力の向上が必要であることを示唆しています。