arXiv (Robotics)AI

TITLE_JA: RMTL：視覚言語モデルの報酬を用いた長時間操作タスクのための強化マイクロタスク学習

RMTL: Reinforced Micro-task Learning for Long-Horizon Manipulation with VLM Rewards

2026年6月26日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

ロボット操作タスクにおける強化学習は、従来、手作業で密集した報酬関数を設計するか、人間のデモンストレーションや選好から報酬を学習する必要があり、どちらのアプローチも調整が難しく、コストがかかるという課題を抱えていました。最近の研究では、事前学習済みの視覚言語モデル（VLM）をゼロショット報酬モデルとして利用し、単一のテキストプロンプトでこれらのコストを削減する試みが進められています。しかし、初期条件がランダムに変わる長時間の操作タスクにおいては、単一のグローバルプロンプトでは粒度が粗すぎるという問題が生じます。本研究では、Reinforced Micro-Task Learning（RMTL）というアプローチを提案しています。このアプローチは、複雑な操作タスクを少数の言語で記述されたマイクロタスクに分解し、エージェントがそれらのタスク間で切り替わりながら学習するという仕組みです。各ステップで、エージェントは現在アクティブなマイクロタスクのプロンプトを用いて、複数カメラ視点から計算されたVLM報酬を受け取ります。この多視点報酬の平均化により、視点固有のオクルージョン（遮蔽）の影響を低減できます。リバースカリキュラムによって初期条件を段階的に難化させながら、最初はルールベースの距離関数でマイクロタスク選択を行うPPOワーカーを訓練します。その後、このルールベースの選択機構を学習された階層的マネージャーに置き換え、完全に学習可能な階層的ポリシーへと発展させます。 Fetchロボット操作環境での実験では、RMTLが単一プロンプトVLM報酬よりも信報性の高い報酬シグナルを提供し、より高速な学習を実現することが示されました。マイクロタスク固有の言語プロンプトへ報酬を分解することで、ロボット操作における言語誘導強化学習のスケーラビリティを大幅に向上させる可能性が示唆されています。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

TITLE_JA: RMTL：視覚言語モデルの報酬を用いた長時間操作タスクのための強化マイクロタスク学習

日本語要約青い用語にマウスを合わせると解説が表示されます