arXiv (NLP)AI
TITLE_JA: AgentOdyssey:テスト時継続学習エージェント向けの開放型長期テキストゲーム生成フレームワーク
AgentOdyssey: Open-Ended Long-Horizon Text Game Generation for Test-Time Continual Learning Agents
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
AIエージェントが実世界との相互作用を通じて継続的に学習できるようになるためには、効果的な探索、新しい世界知識とスキルの獲得、関連する一時的な経験の保持、そして長期的な計画立案能力が必要とされます。これらのテスト時継続学習エージェントの重要な能力を評価するため、研究チームは「AgentOdyssey」という新しい評価フレームワークを導入しました。このフレームワークは、豊富なエンティティ、世界ダイナミクス、そして長期的なタスクを備えた開放型テキストゲームを手続き的に生成します。
従来の機械学習では、学習がテスト時に発生しないと想定されていますが、AgentOdysseyはこの前提を超えています。連続的で長期的な設定の中でエージェントを配置し、デプロイ全体を通じて学習と推論を継ぎ目なく交互に行わせるのです。このフレームワークは、ゲーム進捗の測定にとどまらず、世界知識の獲得、一時的記憶、オブジェクトと行動の探索、行動の多様性、そしてモデルコストについて診断的テストを提供する多面的な評価方法論を提案しています。
研究では、様々なエージェント・パラダイムを生成されたゲームで評価しました。実験結果は、エージェントの重要な能力における重大な限界と、その意味のある地平線に影響を与える要因を明らかにしています。パフォーマンスはより強力なベースモデルでスケールしますが、最高のエージェントでさえ人間のパフォーマンスより大きく下回っており、改善の余地は相当あります。エージェントメカニズムの中でも、短期メモリは複数のエージェント・パラダイムに利益をもたらし、エージェントのテスト時トレーニングの重要な構成要素となることが判明しました。