arXiv (ML)AI
TITLE_JA: QPILOTS:フロー方策のための効率的なテスト時間Q操舵
QPILOTS: Efficient Test-Time Q-Steering for Flow Policies
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
フロー・マッチングと拡散方策は表現力の高い行動生成器として知られていますが、時間差分強化学習(RL)での最適化は依然として難しい課題です。効果的なポリシー抽出には批評家(critic)の行動勾配を活用する必要がありますが、この信号を多段階のデノイジング処理全体に直接逆伝播させると数値的に不安定になるという問題がありました。既存の手法はこの問題を、勾配情報を破棄したり、ポリシーをシンプルなワンステップ演者に蒸留したり、批評家の改善に合わせてデノイジングポリシーを繰り返し微調整することで回避していました。
新たに提案されたQPILOTSは、元のポリシーを無修正のまま保ち、推論時にデノイジング処理を操舵するアプローチです。各デノイジングステップで、批評家の予測が信頼できないノイズの多い中間行動で批評家を評価する代わりに、その中間状態をまず最終的なクリーンな行動の推定値に投影し、そこで批評家勾配を計算します。本手法には二つのバリエーションがあり、QPILOTS-Uは高速な単一点近似を使用し、QPILOTS-Mは学習された補助ネットワークを通じて微分可能な事後サンプルを取得します。
標準的なオフライン・トゥ・オンラインRL ベンチマークにおいて、QPILOTSは最高の集約パフォーマンスを達成し、50タスク全体で平均90%の成功率に到達しました。また、本手法は大規模で凍結された事前学習済みのビジョン・言語・行動(VLA)基盤モデルを操舵するためにも応用され、シミュレーション環境での6つの操作タスクにおいて、推論時アプローチの先行手法を上回るか同等の性能を示しています。