arXiv (Robotics)AI
FlowMo-WM:物体運動と隠れた環境ドリフトを考慮した世界モデル
FlowMo-WM: A World Model with Object Momentum and Hidden Ambient Drift
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット学習における世界モデルは、視覚観測と行動から将来の状態を予測し、エージェントが自らの制御の結果を推論することを可能にします。しかし、多くの行動条件付きモデルは、動きが即座の制御に支配されている環境でのみ評価されてきました。一方、水上車両や現実世界の多くのオブジェクトは慣性によって継続的に運動し、水流や風などの隠れた環境要因によって変位します。このような状況に対応するため、研究者たちはFlowMo-WMという新しい視覚世界モデルを提案しました。
FlowMo-WMは、画像と行動の履歴から、フロー場の直接的な教師信号がない場合でも、物体中心の運動状態と隠れたドリフトに関連した長期的な予測コンテキストを推論できるエンドツーエンドで訓練可能なモデルです。このモデルは画像と行動の履歴を、物体中心の運動をまとめた短期潜在状態と、ゆっくり変化する外因的影響をまとめた長期コンテキストに分解します。潜在変数のロールアウト時には、ゼロコンテキスト残差遷移によって行動条件付きの基本ダイナミクスとコンテキスト依存のドリフト効果を分離します。
多様な隠れたフロー、外乱、ランダム化された車両ダイナミクスを持つシミュレーション水上環境での評価では、FlowMo-WMは従来の行動条件付き潜在世界モデルを上回る長時間軸のロールアウト精度を達成しました。推論されたコンテキストをロールアウト時にゼロ化またはシャッフルする予測時のコンテキストアブレーション実験により、隠れたドリフト下での安定した予測には環境コンテキストが重要であることが示されました。