arXiv (ML)AI
デモンストレーションから報酬へ:VLM報酬モデルのテスト時プロンプト最適化
From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
強化学習において、報酬関数の設計は極めて重要ですが、ロボティクスなどの実世界応用では手作業での設計が困難であったり、そもそも利用不可能な場合があります。近年の研究では、事前学習済みのビジョン言語モデル(VLM)がゼロショット推論能力を活かして報酬モデルとして機能する可能性が探索されています。しかし、入念なプロンプトエンジニアリングなしでは、こうしたアプローチは最適でない報酬を生成する傾向があり、特に誤検出(False Positive)は下流のポリシー学習を著しく損なわせるという課題がありました。
ロボティクスの現場では、ポリシー学習の初期化のために限られた数の専門家デモンストレーション(3~10軌跡程度)が収集されることが一般的です。このシナリオに着目して、研究チームはDemo2Rewardというテスト時適応手法を提案しました。この手法は、少数のデモンストレーションに基づいて報酬モデルの言語指示を最適化し、真の正解(True Positive)を保持しつつ誤検出を削減するものです。重要な点として、この最適化はポリシー学習時に追加の学習計算やモデル訓練を必要としません。
評価実験では、Demo2Rewardが複数のシミュレーション環境下のロボティクスタスクおよび様々なポリシーバックボーンにおいて、既存のゼロショット・フューショットVLM報酬モデルを一貫して上回る性能を示しました。さらに、実世界のロボット学習シナリオへの転移にも成功し、手作業での報酬関数設計を必要としないポリシー学習を実現しました。このアプローチは、実用的なロボット学習システムの構築に向けた重要な一歩となるものです。