arXiv (Robotics)AI
μ₀:スケーラブルな3D相互作用トレース世界モデル
$\mu_0$: A Scalable 3D Interaction-Trace World Model
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット学習の効率化と汎用性向上を目指す研究として、μ₀という新しい世界モデルが提案されました。従来の世界モデルは、ピクセル空間のビデオモデルであれば画像の密集した外観再構成に多大なモデル容量を費やし、直接行動モデルであれば特定のロボット体系に依存した行動ラベルが必要でした。これらの課題に対して、μ₀は3Dトレースに基づくアプローチで革新的な解決策を提供します。
μ₀の核となる特徴は、密集したピクセル予測や直接的な行動モデリングではなく、オブジェクト、ツール、手、接触領域など重要な相互作用点の滑らかな3D軌跡を予測することにあります。この方式により、コンパクトで体系非依存の運動インターフェースが実現されます。多様なビデオソースから学習できるよう、TraceExtractシステムが自動的に3D教師信号を抽出します。プロセスとしては、キーポイント選択、グローバルに整列されたトレース構築、階層的言語キャプションとの運動セグメント関連付けが含まれます。
μ₀の学習は、事前学習された視覚言語バックボーンをモジュール化されたトレースエキスパートと組み合わせることで実現され、トレースエキスパートはB-スプライン制御点を通じて各クエリを表現し、将来のトレースを予測します。実験結果では、μ₀は2Dおよび3Dトレース予測の両方においてベースラインモデルやトークン化VLM手法を上回る性能を示しています。
重要な点として、μ₀は固定可能で再利用可能なモデルであり、下流のロボット体系に対して行動エキスパートと組み合わせることができます。行動教師信号なしの事前学習にもかかわらず、結果的なトレース条件付きポリシーは、π₀のような行動教師信号を用いて事前学習されたVLAモデルと競争力のある性能を達成しています。これらの成果は、3Dトレースが体系横断的な操作のための、スケーラブルで転移可能な表現として確立されたことを示しています。