arXiv (Robotics)AI
模倣から価値観調整へ:長距離歩道ナビゲーションのための人間選好フロー方策
From Imitation to Alignment: Human-Preference Flow Policies for Long-Horizon Sidewalk Navigation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自動運転技術は道路での利用が進む一方で、ロボット配達や電動車いすなどのマイクロモビリティ応用において、歩道での長距離自動ナビゲーションはいまだ大きな課題として残されている。道路上の自動運転と異なり、歩道ナビゲーションは予測不可能な路面状況と歩行者を避けながら精密な操舵が必要であり、かつ単一のモノキュラーRGBカメラという最小限の認識スタックで実現しなければならない。
従来の模倣学習(IL)はデモンストレーションデータから実用的なパイロット方策を得られる利点がある一方で、誤差の蓄積、歩道での社会的配慮の不足、複雑状況への反事実推論の欠陥といった問題に直面していた。これらの課題に対処するため、研究チームはFlowPilotと呼ぶマップレスナビゲーション方策を開発した。本手法は単一のモノキュラーRGBカメラのみを用いて、堅牢で効率的な長距離ナビゲーション性能を実現する。
FlowPilotは、アンカー付きフロー照合を行動表現として採用し、大規模ロボットフリートデータでの事前学習を通じて、歩道ナビゲーション行動の多様かつ複雑な多峰分布をキャプチャする。その後、模倣から価値観調整へのギャップを橋渡しするため、人間参加型の選好学習スキームを導入し、少量の人間介入データでモデルを微調整する。これにより反事実推論能力と歩道での社会的配慮が強化される。
シミュレーション環境では42%の成功率と66%のルート完了率を達成し、人間選好で調整したFlowPilot-HPはさらに実世界での堅牢性と社会的配慮を向上させ、基盤モデルと比較して不適切な行動(IR)を40.0%、非動作(NIR)を52.1%削減している。