arXiv (Robotics)AI
ロボット操作のための行動・効果メモリ事前学習フレームワークの開発
Action-Effect Memory Pretraining for Robot Manipulation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボットが複雑な操作タスクを効率的に学習するための新しい事前学習フレームワーク「AEM(Action-Effect Memory)」が発表されました。このアプローチは、従来のロボット表現学習方法が単一フレームの視覚情報に焦点を当てていたのに対し、操作の時系列的な性質に着目しています。
ロボット操作では、環境が完全には観測できない状況において、現在の観測情報だけでは不十分なことが多くあります。AEMはこの課題に対応するため、操作を行動駆動型の相互作用プロセスとしてモデル化しています。視覚情報と行動特徴を組み合わせ、不完全な履歴から欠落した内容を復元するマスク学習を適用することで、行動条件付きの状態進化を学習します。Mambaエンコーダで処理された最終的な視覚トークンの出力は、コンパクトな履歴表現として機能し、下流の制御タスクのためのグローバルコンテキストになります。
このフレームワークの評価は、Diffusion PolicyおよびFlow Policyを用いて実施されました。シミュレーション環境および実世界の両方で、清潔なシーン、混雑した環境、ランダムなシーン、非マルコフタスクなど様々な条件において、従来の手法を上回る性能を示しています。
アブレーション研究により、履歴を考慮した事前学習が単一フレーム学習やフレームスタッキングよりも優れていることが確認されました。同時に、推論遅延と計算コストの削減も実現しており、実用的なロボット制御への応用に向けた大きな進展となっています。