arXiv (Robotics)AI
TITLE_JA: Embodied-R1.5:具体化財団モデルを通じた物理的知能の進化
Embodied-R1.5: Evolving Physical Intelligence via Embodied Foundation Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボティクスと具体化AI(Embodied AI)の分野において、新たな統一的な基盤モデルが提案されました。Embodied-R1.5は、単一のアーキテクチャ内に具体化認知、タスク計画、自己修正、ポインティング指示など、包括的な具体化推論能力を統合した具体化財団モデル(EFM)です。従来のロボット制御システムは異なるタスクごとに個別の学習が必要でしたが、このモデルは統一的なアプローチで一般的な物理的知能の実現を目指しています。
データ構築の面では、3つの自動化パイプラインを活用して、重要な機能のデータカバレッジを大幅に拡張し、15億トークンを超える大規模データシステムを構築しました。さらに、異なるタスク間の競合を緩和するための多タスク均衡強化学習レシピを設計し、複数のタスクで効率的に学習できる環境を実現しています。わずか8パラメータで実装されながら、Planner-Grounder-Corrector(PGC)の閉ループフレームワークにより、単一モデルが長期にわたるタスクを自律的に実行し、自己修正することが可能になりました。
性能面では、24個の具体化VLMベンチマークのうち16個でSOTA(最先端)を達成し、Gemini-Robotics-ER-1.5やGPT-5.4といった主要モデルを上回っています。このモデルは少量のデータでVLA(Vision Language Action)モデルにファインチューニングでき、4つの人気のある操作ベンチマークスイートで leading VLAモデルπ₀.₅を上回る性能を示しました。実世界でのゼロショット実験では、指示理解、アフォーダンス認識、関節物体操作、長期複雑タスクなど、様々な場面で強い汎化能力を実証しています。研究者らはモデルウェイト、データセット、訓練コード、および具体化タスク評価用フレームワークのEmbodiedEvalKitをオープンソース化し、今後の具体化財団モデル研究の発展を促進する姿勢を示しています。