arXiv (Robotics)AI
実世界経験なしで現実のロボット政策を改善する支援制約強化学習
Support-Constrained RL Enables Real-World Policy Improvement without Real-World Experience
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
実世界で学習されたロボット政策は、精度が低く、処理が遅く、外部からの摂動に対して脆弱になりがちです。強化学習(RL)を用いてこれらの政策を改善することは魅力的な選択肢ですが、このプロセスは現実世界での高額な訓練を必要とすることが多くあります。代わりにシミュレーション環境で政策改善を行うことは、はるかに低コストの代替手段を提供しますが、シミュレーション内での制約のない強化学習は、接触や動力学の不一致を悪用し、ハードウェアに転移しない危険な動作を引き起こす可能性があります。
本研究では、Support-Constrained Off-Domain REinforcement(SCORE)という新しい現実-シミュレーション-現実フレームワークを提案しています。SCOREは、実データで事前学習された生成政策のサポート範囲内に、シミュレーション内の強化学習を制約するものです。この制約はフロースティアリングを通じて実装され、基本政策が既に生成できる行動に限定することで、転移可能な動作を確保しながら政策改善を最大化します。
SCOREによる政策改善は最小限の努力で実現できます。疎な報酬から学習し、蒸留を回避し、基本政策に手を加えません。8つの現実世界の器用な多指ロボット操作タスク全体で、SCOREは平均成功率を37.8%から89.9%に改善し、最良ベースラインの59.5%を上回りました。さらに、基本政策と比較して36.8%少ないステップで成功に到達します。広範な実験とアブレーション研究を通じて、政策最適化が適切に制約される場合、シミュレーションが現実世界の操作政策を大幅に改善できることが実証されました。このアプローチは、現実-シミュレーション-現実間の政策改善に関する新しいパラダイムを導入しています。