arXiv (Robotics)AI
PAIWorld:ロボット操作のための3D一貫性を備えた世界基盤モデル
PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボティクス分野において、複数のカメラを使用した視点統合は大きな課題となっています。従来のワールド基盤モデル(WFM)は単一視点での動作が中心であり、ロボット操作に必要とされる複数カメラ(自己中心視点、手眼カメラ、リスト装着カメラ)からの入力に対応する際に、3D一貫性を欠いていました。既存のマルチビュー世界モデルは単純にビュートークンを連結するだけで、明示的な幾何学的推論がないため、ビュー間でのオブジェクトドリフト、深度の不整合、テクスチャのズレが生じていました。
こうした問題を根本から解決するため、新たに提案されたPAIWorldフレームワークは、拡散変換器ベースの世界モデルに三つの重要なコンポーネントを統合しています。第一に、幾何学認識クロスビューアテンション(Geometry-Aware Cross-View Attention)ブロックが、異なる視点間の明示的な通信経路を確立します。第二に、幾何学的ロータリーポジション埋め込みがカメラ光線方向と外部パラメータをアテンションメカニズムにエンコードします。第三に、潜在3D-REPAが、凍結された3D基盤モデルから3D認識機能を抽出し、3D一貫性を保証します。
PAIWorldはロボット操作ベンチマークにおいて最先端のマルチビュー3D一貫性を実現し、WorldArenaリーダーボードで1位、AgiBot-Challenge2026リーダーボードで2位を獲得しました。さらに、モデルベース計画、世界行動モデル、マルチビューポリシーの事後学習といった下流アプリケーションも可能にし、ロボット操作システムの精度と信頼性を大幅に向上させています。