arXiv (CV)AI
ビジョン言語モデルとロボット行動を幾何学的に統合する新手法LAST
LAST: Bridging Vision-Language and Action Manifolds via Gromov-Wasserstein Alignment
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット学習の分野で、ビジョン言語モデル(VLM)とロボットアームの動作制御を統合するVision-Language-Action(VLA)学習は重要な課題です。しかし両者を単純に組み合わせるだけでは十分な性能が得られません。なぜなら、言語と画像から得られる意味的な埋め込み空間は線形でアイソトロピック(等方的)な幾何学的構造を持つ一方で、ロボットの物理的な動作空間は非ユークリッド幾何学に従う異方的な多様体だからです。この根本的な数学的不整合により、従来の直接的な回帰手法では不適切な結果しか得られていました。
arXivで発表された新研究では、この問題を解決するためにグロモフ・ワッサーシュタイン距離という高度な幾何学的観点を導入しています。提案されたLAST(Lie-algebraic Action Space Tokenizer)という手法は、二段階の変換を通じてアクション空間を再構成することで、両領域の局所的な距離構造を互いに適合させます。第一段階の「グローバル位相線形化」では、リー代数的なマッピングを用いてロボット動作の多様体を線形化し、軌跡を固定長で物理的加法性を持つ表現に変換します。第二段階の「局所距離離散化」では、この表現を階層的にスキーマと白色化残差に離散化することで、統計的に意味的空間と一致した等方的な局所図表を生成します。
このアプローチにより、グローバルレベルとローカルレベルの両方で構造的な不整合を解決することで、VLAモデルの収束性と汎化能力が大幅に向上することが期待されています。複雑な幾何学的枠組みを導入することで、より効率的でロバストなロボット学習システムの実現へ向けた重要な一歩となるでしょう。