arXiv (ML)AI
ソルバーの制約を打破:学習可能なフロンティアでのタスク生成器の訓練
Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
強化学習(RL)によるエージェント訓練において、ボトルネックとなっているのが「フロンティアタスク」の供給不足である。これは現在のモデルを訓練するのに十分な難易度を持ちながらも、確実に解くことができる有効なタスクを指す。推論能力やエージェントモデルが進化するにつれて、固定されたタスク分布は飽和し、単純な合成生成では自明、不可能、または不正な形式のタスクが大量に生まれる問題が発生している。
この課題に対応するため、研究チームはPROPELという革新的なフレームワークを開発した。従来のアプローチでは、タスク生成器をRLで最適化する際に、各候補タスクに対して繰り返しソルバーのロールアウトが必要となる。ソフトウェアエンジニアリング(SWE)タスクでは1回のロールアウトに数十分要するため、ソルバー・イン・ザ・ループの生成器訓練は実質的に不可能だった。PROPELはソルバーの計算コストを償却し、軽量な活性化プローブを用いることで、この問題を解決する。
PROPELは生成されたタスクとソルバーの結果をラベル付けした一度限りのコーパスでプローブを訓練する。このプローブは凍結されたジェネレータの参照モデルからターゲットソルバーのパス率を予測し、生成器の最適化中はソルバーの代替として機能する。これにより生成器の評価が単一の前向きパスに削減される。数学、コード、ソフトウェアエンジニアリングの複数のモデルスケールで実験した結果、PROPELはコード生成においてQwen2.5-3Bで10.1%から20.0%へ、Qwen2.5-7Bで5.3%から12.6%へと学習可能なフロンティアで生成されるタスクの割合を大幅に増加させた。SWEタスクではQwen3.5-27Bで9.8%から19.6%への改善が確認されている。