arXiv (Robotics)AI
深層決定論的方策勾配を用いた経路計画:強化学習アプローチ
Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自動運転車が脅威を含む環境で安全に目的地に到達するための経路計画は、極めて複雑な課題である。この問題は最も単純なシナリオにおいても非線形性と非凸性を持つため、従来の最適制御手法では理想的な経路を見つけることができても、リアルタイムな意思決定に必要な計算速度を確保することが困難であった。
本研究は、この課題を解決するため、深層決定論的方策勾配(DDPG)に基づく手法を提案している。環境内の脅威領域を複数の円形の「進入禁止ゾーン」としてモデル化し、車両がこの制限区域に進入したり目的地近くに到達できなかったりする場合をミッション失敗と定義する。DDPGエージェントはシミュレーション環境で試行錯誤を通じて訓練され、現在の状態(位置と方位)から目的地への安全な到達を導く一連の実行可能なアクションへの直接的なマッピングを学習する。
報酬関数は三つの要素から構成されている。最終目的地を中心とした吸引場、円形障害物の中心を基準とした反発場、そして直線経路を間接的に促進する操舵変化量による制御エネルギー消費のペナルティである。DDPGはこれらのインセンティブを用いてエージェントを訓練し、目的地への安全な経路が保証される最大限の開始地点の集合を発見する。これにより、ある開始点からのタスク達成可能性をミッション前に判断できる重要な情報が得られ、事前計画活動を支援する。
シミュレーションでの検証と従来の最適制御(疑似スペクトラル法)との比較を実施した結果、学習ベースのエージェントは従来手法と同等かそれ以上に効果的な経路を生成しながら、圧倒的に高速に処理できることが示された。この特性により、リアルタイムアプリケーションへの適用に非常に適していることが証明された。