arXiv (AI)AI
TITLE_JA: PersonaDrive:自動運転シミュレーション向けの人間らしい検索拡張型VLAエージェント
PersonaDrive: Human-Style Retrieval-Augmented VLA Agents for Closed-Loop Driving Simulation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自動運転のシミュレーション環境において、背景となる交通流を現実的に再現することは重要な課題です。従来のシミュレーターでは、ルールベースの交通管理システムまたは学習済みモデルによって、ほぼ同一の行動をする非自我交通エージェントが配置されていました。最近の研究では事後的なラベル付けやLLMが推定した報酬の重みを通じてスタイルの変動を導入する試みがなされていますが、これらは人間が特定のスタイルで運転するという実際の実演データではなく、代理信号に過ぎません。
新たに提案されたPersonaDriveパイプラインは、スタイル指示を受けた人間の運転データセットから取得した実演に基づいて、視覚言語行動(VLA)運転エージェントを条件付けします。このデータセットは参加者がCARL Aリーダーボードルートを攻撃的、中立的、保守的な指示の下でドライバー・イン・ザ・ループリグで運転したものです。パイプラインは三段階で構成されています。まずスタイル別の人間運転データに対する画像テキスト類似度スコアを用いたオフライン三重項マイニング、次に凍結された視覚特徴と小規模制御エンコーダをスタイル別データベース上で融合する軽量検索ヘッドの訓練、そして単一のVLAバックボーンを微調整して、取得されたコンテキストポイントをウェイポイント予測時のインコンテキスト行動実演として処理します。
推論時には、同じバックボーンが検索ヘッドが照会するスタイル別データベースを切り替えることで任意のスタイルで条件付けされるため、スタイル選択はスタイル別の再訓練を必要とせず、閉ループシミュレーション用の人間らしいスタイル多様な非自我エージェントが実現します。Bench2Driveベンチマークにおいて、PersonaDriveは基本構成でSimLingoを4.6%、HiP-ADを2.5%上回る運転スコアを達成し、スタイル条件付けの下では全スタイルで最高の運転スコアを約2%のバンド内で獲得しています。保守的から攻撃的な指示への変更により、平均速度は18%、加速度は25%増加しています。