arXiv (AI)AI
モデル能力強化のためのデータと評価の閉ループシステム
Data and Evaluation Closed-Loop for Model Capability Enhancement
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の事前学習において、モデルの能力向上は中心的な課題ですが、その能力を直接観測することはできません。データはモデルの能力を先制的に形成し、評価はそれを後付けで明かすだけで、サンプル、プロンプト、デコーディング、スコアリングルールといった複数の要素が一つのノイズの多いスコアに圧縮されてしまいます。実務的な最適化では逆のプロセスが起こります。まず失敗が観測され、エンジニアはそれを修正するためのコーパス改善を推測しなければなりません。しかし評価とデータという両者は相容れない言語を使用しており、ベンチマーク名やサンプルの正否率とデータソース、ドメイン、品質ラベルの間には大きな溝があります。そのため、この推測作業は通常、直感に頼るしかありませんでした。
本研究は「能力スライス」という新たな概念を導入することで、この問題を解決します。能力スライスは、背景条件、タスク種別、解法操作、出力制約を共有する評価サンプルのグループであり、単一の弱点を正確に特定できるほど詳細でありながら、ベンチマーク名のような粗さや単一サンプルのようなノイズに悩まされません。この単位を中心に、評価タクソノミー、非指示データタクソノミー、およびマッピングルールからなる閉ループシステムが構築され、ベンチマークレベルの失敗を対象を絞ったテスト可能なデータ介入へと変換します。
研究チームは相反する方向を示す2つのケーススタディでこのループを検証しました。最初のケースでは、ループはデータの修正を排除しました。継続的な事前学習はBBHを46.82パーセント低下させましたが、診断の結果、これは推論能力の低下ではなく、マスクされた「EOS」トークンの損失が単一の問題であることが判明しました。これを復元することで、BBHは66.44に回復し、元のチェックポイントを上回りました。2番目のケースでは、ループはデータの改善を指示しました。数学推論の弱点を解法操作で分解して特定し、その弱点に対応したサンプリング手順を構築することで、AIME2025およびAIME2026のPass@128スコアを6.67パーセントおよび0パーセントから各26.67パーセントへと大幅に改善しました。同じ未修正のループが両方のケースで正反対かつ正確な結論に至ったことは、評価からデータへの推測が直感ではなく、ルーチン化され監査可能で実験的に検証可能なものになり得ることを示唆しています。