arXiv (NLP)AI
プロバナンス分析によるLLMエージェントの誤配置防止
Safeguarding LLM Agents from Misalignment through Provenance Analysis
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)を基盤としたエージェントが外部ツールへのアクセスを増やすにつれ、そのアクションがユーザーの意図と一致していることを確保することが極めて重要になってきました。エージェントが提案するツール呼び出しがユーザーの意図から外れる「誤配置」現象は、取り返しのつかない有害な結果につながる可能性があります。従来の実行時ガードレール技術は、「LLM-as-a-judge」パラダイムに依存していましたが、この方式は一貫性を欠き、監査が難しいという問題がありました。
今回、研究者らはプロバナンス分析の概念に基づいた新しいフレームワークを提案しました。このフレームワークは、誤配置検出を「提案されたツール呼び出しがエージェントのコンテキスト内で追跡可能な証拠によってサポートされているかどうかの判定」として形式化しています。これに基づいて構築された「ProvenanceGuard」は、複数段階のパイプラインで、ツール実行前に3種類の誤配置についてエージェントのアクションを分析し、ユーザーの入力クエリと整合していると判断された場合にのみアクションを実行させます。
10種類のバックボーンLLMを用いて2つのベンチマーク(Agent-SafetyBenchとWorkBench)で評価した結果、ProvenanceGuardは従来のLLM-as-a-judge法と比較して、Agent-SafetyBenchでは誤配置トレースのエラー率を42.9%から1.8%に削減し、WorkBenchでは32.1%から17.3%に削減しました。また、タスク成功時の介入の負担も30.5%から12.8%に軽減され、整合したトレースでの不要な介入の有意な増加は見られませんでした。これらの結果は、構造化されたプロバナンスベースの推論がLLMエージェントの誤配置防止に有効で実用的な基礎を提供することを示しています。