arXiv (Robotics)AI

PAIWorld：ロボット操作のための3D一貫性を備えた世界基盤モデル

PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation

2026年6月18日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

ロボティクス分野において、複数のカメラを使用した視点統合は大きな課題となっています。従来のワールド基盤モデル（WFM）は単一視点での動作が中心であり、ロボット操作に必要とされる複数カメラ（自己中心視点、手眼カメラ、リスト装着カメラ）からの入力に対応する際に、3D一貫性を欠いていました。既存のマルチビュー世界モデルは単純にビュートークンを連結するだけで、明示的な幾何学的推論がないため、ビュー間でのオブジェクトドリフト、深度の不整合、テクスチャのズレが生じていました。こうした問題を根本から解決するため、新たに提案されたPAIWorldフレームワークは、拡散変換器ベースの世界モデルに三つの重要なコンポーネントを統合しています。第一に、幾何学認識クロスビューアテンション（Geometry-Aware Cross-View Attention）ブロックが、異なる視点間の明示的な通信経路を確立します。第二に、幾何学的ロータリーポジション埋め込みがカメラ光線方向と外部パラメータをアテンションメカニズムにエンコードします。第三に、潜在3D-REPAが、凍結された3D基盤モデルから3D認識機能を抽出し、3D一貫性を保証します。 PAIWorldはロボット操作ベンチマークにおいて最先端のマルチビュー3D一貫性を実現し、WorldArenaリーダーボードで1位、AgiBot-Challenge2026リーダーボードで2位を獲得しました。さらに、モデルベース計画、世界行動モデル、マルチビューポリシーの事後学習といった下流アプリケーションも可能にし、ロボット操作システムの精度と信頼性を大幅に向上させています。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

PAIWorld：ロボット操作のための3D一貫性を備えた世界基盤モデル

日本語要約青い用語にマウスを合わせると解説が表示されます