arXiv (Robotics)AI
TITLE_JA: Guava:具体化された操作のための効果的かつ汎用的なフレームワーク
Guava: An Effective and Universal Harness for Embodied Manipulation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模なビジョン言語データで訓練された言語モデルは、具体化されたエージェント(物理環境で動作するAIシステム)に大きな可能性を示してきました。本研究が提示するGuavaは、このような言語モデルを活用する新しいフレームワークで、従来のエンドツーエンド型のビジョン言語アクションシステムに代わるアプローチを提案しています。Guavaは、高レベルの推論と認識、計画、制御のための外部モジュールを組み合わせることで、より効果的なロボット操作システムを実現することを目指しています。
研究チームはエージェントワークフロー、アクション空間、観察空間の設計空間を体系的に探索することで、効果的な具体化されたエージェントの3つの重要要素を特定しました。それらは、反復的な認識推論アクションループ、セマンティックアクション抽象化、およびマルチモーダル観察です。興味深いことに、これらの設計原理がより小規模なモデルにも普遍的に適用できるかを検証するため、研究チームはシミュレーション内で収集した2000未満の軌跡を用いて、具体化された操作能力を4Bパラメータのオープンソースモデルに蒸留するエンドツーエンドの訓練パイプラインを開発しました。
シミュレーション環境と現実世界環境の両方での実験結果は、最先端の独占的モデルと同等のパフォーマンスを示しながら、未知の物体、新しい指示、長期的なタスクに対する強い汎化能力を発揮しました。これらの結果は、適切に設計されたフレームワークが、具体化された操作のためのスケーラブルでモデル非依存のインターフェースとして機能し、最小限の訓練データでコンパクトなオープンソースモデルに強力な具体化能力をもたらすことができることを示唆しています。