arXiv (AI)AI
TITLE_JA: CEO-Bench:AI エージェントは長期戦略を遂行できるか?
CEO-Bench: Can Agents Play the Long Game?
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
言語モデルを基盤としたAIエージェントは、ソフトウェア開発やカスタマーサービスといった短期的で限定的なタスクでは優れた実行能力を示しています。しかし現実の世界が直面する課題は、これまでエージェントによってほとんどテストされていない多くの高度なスキルの組み合わせを要求します。長期にわたって不確実性の中を切り抜けること、ノイズの多い環境から情報を収集すること、変化する環境に適応すること、そして複数の要素を統合して一貫した目標に向かうことです。
こうした課題に対応するため、研究者たちはCEO-Benchという新しいベンチマークを開発しました。これはスタートアップを500日間運営するという現実的なシミュレーション環境を通じて、エージェントの能力を総合的に評価するものです。エージェントは価格設定、マーケティング、予算編成など企業経営の多くの側面を、Pythonインターフェースを介して管理し、人間のCEOと同じ環境で同じ課題に直面します。成功を収めるには、ノイズを含みながら相互に関連するビジネスデータベースを分析し、そこからのシグナルを経営戦略に転換し、多くの意思決定をプログラミングによって調整する必要があります。
最先端のモデルでさえ、最強のエージェントが顧客コホートをシミュレートするための複雑なコードを作成して将来のキャッシュフローを予測し、交渉履歴を分析して隠れた顧客の好みを発掘するなど、洗練された戦略を採ることで初めて対応しています。それでも、ほとんどの最先端モデルはこの環境で苦戦しており、Claude Opus 4.8とGPT-5.5のみが初期資本である100万ドルを上回る成績を収めていますが、いずれも安定して利益を生み出すことはできていません。CEO-Benchは、時間とともに持続的で適応的な進歩を遂行するために必要な知能を測定するための重要な一歩となります。