arXiv (Robotics)AI
ロボットの失敗から学ぶスキルと概念:回復、発見、計画
Recover, Discover, Plan: Learning Skills and Concepts from Robot Failures
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボットが環境で失敗することは避けられません。しかし、優れたロボットシステムに必要なのは、単に失敗から回復する能力だけではなく、なぜ失敗が起きるのかを理解し、将来同じ失敗を避けるための抽象的な知識を獲得することです。従来の強化学習(RL)は反応的な回復行動を学ぶことができますが、起こりうるすべての失敗パターンに対して個別のポリシーを訓練するのは極めて非効率です。
arXivで発表された研究「ReSYNC(Recovery-Driven Synthesis of Relational Concepts)」は、失敗と回復の経験から段階的に状態抽象化(関係述語)を発見・洗練し、高度な計画立案を支援する新しいアプローチです。このシステムは、反応的な方法とは異なり、スキル学習と概念学習を同時に進める二重学習プロセスを採用しています。スキル学習フェーズではロボットが強化学習を用いて訓練タスク中の失敗から回復するスキルを学び、概念学習フェーズでは新たな関係述語を発見し、学習した回復行動を説明・一般化するために抽象計画モデルを洗練させます。
この相互作用により、ReSYNCは訓練中に見られた局所的な回復を、テスト時の全体的な失敗回避へと変換します。4つのシミュレーション環境での評価では、ReSYNCの抽象化ライブラリを継続的に拡張・洗練する能力により、これまで見たことのない長期的なタスクを解決でき、強力なベースラインを50%以上上回る性能を発揮しました。さらに、シミュレーションから実環境への転移も実証され、非把握操作スキルの実世界実装と、抽象計画を通じた未知のシナリオへの一般化に成功しています。
ReSYNCは、ロボットが物理世界でスケーラブルで失敗を考慮した計画立案のための抽象化を自律的に獲得する方向への重要な一歩を示すものです。