arXiv (AI)AI
TITLE_JA: 保留データによる選別を用いた再帰的自己進化エージェント
Recursive Self-Evolving Agents via Held-Out Selection
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)を基盤としたエージェントの性能向上において、重みの更新を伴わずに自然言語の成果物を進化させるアプローチが注目を集めています。反省、ワークフロー、プレイブック、チートシート、最適化されたプロンプトといった自然言語の構成要素を段階的に改善することで、凍結されたポリシーの性能を向上させるこれらの手法は、特定のベンチマークにおける成功事例として報告されることが多いのです。
本研究では、こうした手法を公平に比較検証するためにRSEA(再帰的自己進化エージェント)を提案しました。RSEAは命令的戦略、再利用可能なスキル、手続的プレイブックという三層構造からなるコンパクトな自然言語状態を保持します。世代を重ねるごとに、RSEAはこれら三層すべてを自身の軌跡から書き換え、保留データセット(学習に用いないテストデータ)での性能低下がないことを厳密に確認した候補のみをコミットします。
ALFWorld、GAIA、τ-bench、WebShopの四つの異なるベンチマークと、ReAct、Reflexion、GEPA、AWM、ACE、Dynamic Cheatsheetの六つのベースライン手法を同一の局所バックボーン上で評価した結果、三つの重要な知見が得られました。第一に、普遍的に最適な自然言語成果物は存在しません。RSEAはALFWorldで最強の単一パス手法であり69.3%に達し(ReActは64.6%)、再試行により79.4%の最高性能を実現しますが、AWMはツール使用タスクで優位性を示します。第二に、保留データの門番機構なしの文脈進化は高分散で危険です。Dynamic Cheatsheetはオンライン文脈管理でALFWorldでは70.7%と競争力がありながら、WebShopで0.14と崩壊しています。第三に、RSEAの厳密な保留データ選別こそが再帰的自己進化を単調安全にします。いかなるベンチマークでも基盤エージェントを大きく下回らず、進化した文脈が有害な場合は単純なReActにフォールバックするのです。