arXiv (AI)AI
AIエージェント間の信頼:形成、破裂、回復の測定と多エージェントシステム統治への示唆
Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
言語モデルを基盤とするAIエージェントがチーム内で協働する機会が増える中、各エージェントはチームメイトをどの程度信頼すべきかの判断に直面している。しかし現在のところ、AIエージェント間の信頼を測定する標準的な方法が存在していない。この研究では、コスト付き検証に基づいた行動的な測定方法を提案している。協力的な生存ゲームの環境において、チームメイトの作業を確認するには資源を消費する必要がある一方で、誤った回答を信頼することは致命的になり得る。この枠組みを用いて、6つの最先端モデルスナップショット(Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1、Gemini 3.1 Proなど)にわたって信頼の形成、破裂、回復を調査した。
調査の結果は興味深い差異を示している。信頼できるチームメイトとペアリングされた場合、4つのモデルスナップショットは検証を約60~85パーセント削減したのに対し、2つのより小さなモデルはほぼ調整を示さなかった。失敗はこの割引効果を逆転させるが、モデルの反応方法は異なる。エラーを起こしたメンバーに対してのみ精査を強化するものもあれば、チーム全体に対してより慎重になるものもある。また重要な観察として、信頼の回復は形成よりも遅く、クラスター化された失敗は同数の散在した失敗よりもはるかに長く疑念を持続させることが判明した。
これらの特性には実践的な結果をもたらす。信頼を形成するモデルはより少なく検証し、より迅速に決定し、研究環境ではより高い報酬を達成している。対照的に、持続的な過度検証は安全性よりもむしろ決定不能と関連付けられている。本研究は、信頼の傾向をデプロイ前に測定できることを示しており、多エージェントAIシステムの統治においては、最大限の疑念よりも「キャリブレーション」が中心的な関心事になるべきことを提唱している。