arXiv (Systems & Control)AI
TITLE_JA: 一般化モデル予測経路積分制御の期待値最大化法としての解釈
Generalized Model Predictive Path Integral Control as Expectation--Maximization
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
モデル予測経路積分(MPPI)制御は、確率的最適制御問題を解くためのサンプリングベースの手法として知られており、複雑なロボティックシステムにおけるリアルタイム制御を実現してきました。実務的な成功を収めている一方で、その理論的基礎はまだ十分に理解されていません。本研究は、MPPI制御が確率推論の観点から最適制御を定式化した問題に対する期待値最大化(EM)アルゴリズムの特殊ケースとして解釈できることを示しています。
この新しい視点により、従来の研究で一般的に使用されてきたガウス分布に限定されない、一般化されたEM-MPPIフレームワークが提案されます。著者らはこのアルゴリズムの収束特性を分析し、事後軌道分布と探索分布の共分散の観点から局所収束率を特性付けています。指数族分布に対しては、対数分割関数が強凸性を持つ場合に対数尤度の十分な増加特性を確立しました。
さらに、ガウス分布を用いたMPPI制御に特化した分析により、グローバルおよびローカルな収束特性の明示的な表現を導き出しています。この理論的フレームワークは、MPPI制御の動作メカニズムを深く理解し、より一般的な分布族への拡張可能性を示唆するものです。論文掲載受理時には実験用コードが公開予定とされています。