arXiv (Robotics)AI
VoLo:開放語彙長期操作タスク向け物理的オーケストレーター
VoLo: A Physical Orchestrator for Open-Vocabulary Long-Horizon Manipulation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット制御の分野で、自然言語による柔軟な指示に基づいて複雑な多物体環境での長期的な操作タスクを実行することは、極めて困難な課題です。このたび発表されたVoLoAgentは、ビジョン言語モデル(VLM)が複数のロボット能力を統合的に制御する新しいアプローチを提案しています。
仮想環境内のAIエージェントと異なり、物理世界のロボットは推論中に一時停止することができません。このため、意思決定とアクション実行のタイミングが極めて重要になります。VoLoAgentはこの「物理的オーケストレーション」という新概念を導入し、VLA(ビジョン言語アクション)やWAM(ウェアラブルアクションモデル)といった異なるロボット機能を割り込み可能なツールとして扱い、リアルタイムで監視・制御します。このアーキテクチャにより、ロボットは実行中でも柔軟に計画を修正し、失敗から回復することが可能になります。
研究チームは、このアプローチを評価するためにRoboVoLoという高精度ベンチマークを開発しました。常識推論、状態追跡、複雑な参照解析、世界知識など多角的な能力を測定できる設計となっています。実験結果は、VoLoAgentが単一のVLAやVLMシステム、従来のツール統合システムを大きく上回る性能を発揮することを示しており、実際のロボット実験による検証も行われています。