arXiv (AI)AI
GPTNT:マルチモーダルエージェント間のリアルタイム協調作業をベンチマークする
GPTNT: Benchmarking Real-Time Collaboration Between Multimodal Agents on Keep Talking And Nobody Explodes
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチモーダルモデルの能力評価は急速に進展していますが、実際の協調作業において求められる複雑な条件下での性能測定は十分ではありません。新たに発表されたGPTNTは、協力ゲーム「Keep Talking and Nobody Explodes」を基盤としたベンチマークで、このギャップを埋めることを目指しています。このゲームでは、2つのエージェントが時間制限の中で手続き的に生成される爆弾パズルを解除する必要があります。重要な特徴は、情報の非対称性にあります。一方のエージェントは爆弾を見て操作できますが解除方法の指示がなく、もう一方は指示を持っていますが爆弾を見ることも操作することもできません。どちらか一方では成功不可能で、効果的で効率的なコミュニケーションが絶対条件となります。
既存のベンチマークの多くはターンベースの問題設定を採用していますが、GPTNTは非同期アクションとリアルタイム通信を要求する点で革新的です。さらに、暗記した解答ではなく、その場での思考能力を測定するため、指示書やパートナーエージェント、あるいはその両方を意図的に省略できる設計になっています。
実験結果は衝撃的です。テストした全ての最先端の商用・オープンソースモデルが、リアルタイムで単一の爆弾すら解除できませんでした。一方、人間プレイヤーはこの課題をクリアしています。詳細な分析を通じて、研究チームは現在のモデルの重大な弱点を特定しました。状態追跡能力、時間圧力下での効率的な行動、曖昧さへの対処、エラーからの回復といった複数の領域で、根本的な課題が存在することが明らかになったのです。
GPTNTベンチマークは実ゲームで動作するため、手続き的生成により無限のバリエーションが得られ、また活発なモディングコミュニティの恩恵を受けることができます。これにより、一度解かれて退役するベンチマークではなく、モデルの改善に伴って進化し続ける評価基盤として機能する可能性を持っています。