arXiv (AI)AI
未来志向型計画のための統合的エージェント訓練パラダイム:世界モデルと内部シミュレーションの実装
Internalizing the Future: A Unified Agentic Training Paradigm for World Model Planning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)を用いたエージェントは逐次的な意思決定タスクで優れた性能を発揮してきましたが、長期的な目標達成においては根本的に受動的なままという課題を抱えていました。人間が計画を実行に移す前に「もし~だったら」という思考実験を通じて潜在的な結果を評価するのに対し、従来のエージェントは未来の結果をシミュレートするための内部世界モデルを持たないという根本的な制限がありました。本研究は、この問題に取り組むため、単一の自己回帰型モデルが予測的な状態遷移(state rollout)と計画条件付きの成功確率推定(Q値のテキスト版)を生成するよう学習させることで、エージェント内部に未来志向的な計画立案機能を組み込むことを提案しています。
重要な発見として、研究チームはフォーマットと能力のギャップを特定しました。単純に先読みトレースを用いたファインチューニングを行うと、表面的な先見性の模倣に留まり、真の予測的根拠を欠くという問題が生じます。このギャップを埋めるため、三段階の訓練パラダイムを導入しています。第一段階の「World Model Agentic Mid-Training(WM-AMT)」ではポリシーに潜在的な予測能力を注入し、第二段階の「Format-Eliciting SFT(FE-SFT)」ではこの能力を構造化します。最後に第三段階の「Foresight-Conditioned Reinforcement Learning(FC-RL)」では生成されたシミュレーション結果のキャリブレーションと有用性を洗練させます。
検索タスクと数学推論タスクでの評価結果、このアプローチは他の訓練ベースラインを一貫して上回る性能を示しました。これらの成果は、LLMエージェント内で効果的な内部世界モデリングを実現するには、根拠のある且つ正確に調整された先見性を達成するために、能力優先の訓練パイプラインが必須であることを示唆しています。