arXiv (NLP)AI
LLM チームは「何を?どこで?いつ?」をプレイできるか
Can LLM Teams Play What? Where? When?
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は、間接的な推論や文化的知識、協調的な仮説検証を必要とするタスクで依然として制限があります。この研究は、集団的推論を報酬とするクイズゲーム「What? Where? When?(ChGK)」において、チームベースの相互作用がLLMのパフォーマンスを向上させるかどうかを調査しています。研究チームは投票戦略、キャプテンが最終答案のみを観察するサイレントチーム、キャプテンが答案と理由付けの両方を観察するトーキーティブチームの3つのチーム戦略を導入しました。
データリークを最小化するため、2025年にリリースされた572のChGK問題で構成されたデータセットを使用して評価が行われました。6つの最新大規模オープンモデルを使用した結果、チームベース戦略は単一モデルのベースラインを上回り、精度で最大20ポイントのゲインを実現しました。最高性能のチームは44.23%の精度を達成し、利用可能な人間統計を持つ問題に関しては人間チームのパフォーマンスに接近しています。
モデル間の多様性の分析により、意見の不一致は精度の低下を強く予測することが明らかになりました。しかし説明的なコミュニケーションはパフォーマンスの低下を大幅に緩和します。さらに、キャプテンの行動を調査した結果、自己選好バイアスの証拠は見つかりませんでした。むしろ、ピアの理由付けへのアクセスはキャプテンの判断を改善しています。全体的には、LLMチームは主に答案選択とエラーフィルタリングメカニズムとして機能し、新規解決策の生成者としてではなく機能することが示されました。これらの知見は相互作用の重要性を強調し、マルチエージェントシステムに対する適応的戦略が有望な方向であることを示唆しています。