arXiv (Robotics)AI
ハイブリッド接触力学下での物理情報活用目標条件強化学習
Physics-informed Goal-Conditioned Reinforcement Learning under Hybrid Contact Dynamics
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット制御において、スパース報酬から任意の目標到達を学習することは、強化学習の大きな課題です。目標条件強化学習(GCRL)は、複数の目標にわたって汎化可能なポリシーを学習することでこの課題に対処しますが、環境力学が高次元化したり、接触相互作用を伴うようになると、汎化性能が急速に低下します。
このような制約に対応するため、物理情報活用目標条件強化学習(Pi-GCRL)という手法が提案されています。最適制御の概念から着想を得た誘導バイアスを目標条件付き価値関数学習に組み込むことで、ナビゲーションや物体のない目標到達タスクでは高い効果を示していました。しかし、接触が多く発生するマニピュレーション(把持・操作)タスクにおけるPi-GCRLの信頼性はこれまで不明確でした。
接触相互作用の発生は、ハイブリッド力学の出現、モード依存の制御可能性、非滑らかな価値関数の景観といった複雑な構造的性質をもたらします。本研究では、これらの性質が既存のPi-GCRL手法を天然に接触リッチなマニピュレーションタスクに適用した場合に性能低下を引き起こすことを理論的に示しました。
この分析結果をふまえ、研究チームは接触認識的でかつ階層的な定式化を提案しました。マニピュレーション問題全体にわたって物理情報の誘導バイアスを選別的に適用することで、より堅牢な学習が可能になります。本研究は、接触リッチなマニピュレーション領域へのPi-GCRL拡張に向けた原理的な一歩を提供しています。