arXiv (AI)AI
自動運転の強化学習における不確実性認識と時間調整型エキスパートアドバイスフレームワーク
Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自動運転における強化学習の探索は本質的に危険を伴う課題である。エージェントが新しい行動を経験して学習する必要がある一方で、その探索プロセスが衝突やオフロード走行につながる可能性があるためだ。この課題に対応するため、研究者たちは不確実性認識フレームワークを提案した。このフレームワークはエキスパートアドバイスを活用して探索を誘導しつつ、長期的な依存を避けるという要件を両立させている。
提案手法では、認識論的不確実性(epistemic uncertainty)または偶然的不確実性(aleatoric uncertainty)が適応的な閾値を超えた時点でアドバイスが発動される仕組みになっている。これらの閾値はローリングバッファから動的に導出されるため、エージェントの信頼度に応じてアドバイス戦略が進化していく。さらに、コミットメント・クールダウン戦略と確率的早期停止ヒューリスティックにより、ガイダンスの継続時間と頻度が規制され、エージェントが一貫性のある操作を学習しながら、アドバイス予算の枯渇を防いでいる。
エキスパートとエージェントの経験は、オフポリシー型の暗黙的分位数ネットワーク(IQN)バックボーンを搭載した共有リプレイバッファに統合される。これにより、エキスパートの軌跡を効率的に再利用できる。CARLA シミュレータでの実験結果では、本手法が IQN ベースラインを上回り、成功率を5~7%改善し、失敗を削減することが実証された。リスク感応的な不確実性と規制されたエキスパート統合の組み合わせにより、信号機のない交差点ナビゲーション環境におけるセンサベースの強化学習ポリシー学習がより安全で効率的になることが示されている。