arXiv (AI)AI
Orchestra-o1:複数モダリティに対応するエージェント統合フレームワーク
Orchestra-o1: Omnimodal Agent Orchestration
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)ベースのエージェント技術は、単一エージェントから複数エージェントによる協調システムへと進化を遂げています。こうしたマルチエージェント時代において、エージェント間の効率的な統合・調整が、タスク分解と協働を実現する上で極めて重要になってきました。しかし既存の統合フレームワークは限定的なモダリティにしか対応できず、テキスト、画像、音声、動画といった異なるモダリティが共存し相互作用する複雑なシーンへの一般化に苦戦していました。
このような課題に対し、新たに提案されたOrchestra-o1は、複数のモダリティにわたるエージェント間の効率的な協働を実現するための包括的なフレームワークです。このフレームワークの核となるのは、モダリティ認識型のタスク分解、オンラインでのサブエージェント特化、並列タスク実行を可能にする統一的な統合メカニズムです。こうしたスケーラブルな設計により、エージェントシステムは複数の異なる情報源を含む現実世界の複雑なタスクに対処できるようになります。
OmniGAIAベンチマークでの評価では、Orchestra-o1は次点のアプローチを精度で10.3ポイント上回る成果を達成しました。さらに開発チームは、決定配置群相対政策最適化(DA-GRPO)という効率的なエージェント強化学習手法を導入し、Orchestra-o1-8Bの訓練を実施しました。この結果、既存のすべてのオープンソース型オムニモーダルエージェントを上回る最先端性能を獲得することに成功しています。