arXiv (Robotics)AI
CoPark:自己対戦を通じたリアクティブ駐車学習
CoPark: Learning Reactive Parking via Self-Play
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自動運転車が駐車スペースに正確に停止しながら、同時に周囲の車両との安全な相互作用を実現することは、相反する目標を両立させる必要がある難しい問題です。高い幾何学的精度を求めることと、他の車両の動きに即座に対応することの間には本質的な葛藤があり、一方の目標に最適化されたポリシーは、しばしば他方の目標で失敗してしまいます。
新たに発表されたCoParkは、このリアクティブ駐車問題に取り組むマルチエージェント自己対戦強化学習アプローチです。残差ポリシーアーキテクチャに基づいており、事前計算されたオフラインプランが固定的なアクション先行知識を提供し、残差ヘッドが反応的な補正を学習します。自己対戦環境でのトレーニングにより、データやスクリプティングが不足する場面での動作を習得する一方で、固定的な先行知識が駐車スペースの幾何学的構造を確保します。
この手法の鍵となる設計は、パートナー脅威信号に基づいた非対称的な先行知識の解放です。脅威信号によって縦方向チャネルの制御権が残差ヘッドに移行して、譲歩動作を可能にする一方で、横方向チャネルは事前計算された参照に固定されたままで、サブメートル単位のスロット配置を保持します。閉ループ補正層は、アクション離散化に起因する残差終端誤差を修正します。
6つの駐車場でのトレーニングと、Dragon Lake ParkingおよびDeepScenario Open 3D環境を含む新しいリアクティブ駐車ベンチマークでのゼロショット評価を実施した結果、CoParkは約70~85%の成功率を達成し、衝突率はわずか3~6%に抑えられました。これは従来手法、模倣学習、大規模強化学習ベースラインを大幅に上回る性能です。さらに注目すべきは、後進譲歩、走行中譲歩、狭い通路通過、車線形成といった動的相互作用行動が自発的に現れたことであり、単なる技術的成功を超えた実用的な応用可能性を示唆しています。