arXiv (Robotics)AI
遊びを通じた機械学習:ロボットエージェントの自発的なスキル習得手法
Playful Agentic Robot Learning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
現在のロボットシステムは、実行可能なコードポリシーを生成し、フィードバックを観察して複数回の試行を通じて振る舞いを改善することができますが、ほぼすべてのシステムが外部からの明示的な指示に依存しており、再利用可能なスキルは決められたタスク達成後にのみ習得される傾向にあります。新しい研究「Playful Agentic Robot Learning」は、実体化されたコード生成エージェントが具体的なタスクに取り組む前に、自発的な遊びを通じた継続的なスキル学習を行うアプローチを提案しています。
研究チームが開発したRATs(Robotics Agent Teams)は、遊び時間中のスキル習得に特化した設計となっています。遊び段階では、RATsが新規かつ学習可能な探索的タスクを提案し、ロボットコードポリシーを計画・実行します。中間的な進捗を検証し、失敗を診断し、密集したステップレベルのフィードバックを得て再試行を繰り返し、成功した実行結果を永続的なコードスキルライブラリに蓄積していくという流れです。テスト段階では、エージェントがこの固定化されたライブラリから関連するスキルを再利用して新しいタスクの解決を支援します。
LIBERO-PROとMolmoSpacesでの実験結果は、遊びを通じて習得されたスキルが、遊びなしおよびランダムな遊びベースラインと比較して、下流のタスクを大幅に改善することを示しています。具体的には、LIBERO-PROとMolmoSpacesそれぞれでCaP-Agent0比で20.6および17.0ポイントの性能向上を達成しました。さらに注目すべき点として、習得されたスキルは他の推論時Code-as-Policyエージェントにコンテキスト内に単純に取得するだけで組み込むことができ、基盤モデルのファインチューニングなしで、RoboSuiteと実世界への転移をそれぞれ8.9および8.8ポイント改善しています。