arXiv (AI)AI

エンタープライズAIエージェントの本番環境前検証：オントロジーベースのシミュレーションと信頼認証

Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification

2026年6月4日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

大規模言語モデル（LLM）の急速な発展に伴い、エンタープライズAIエージェントを実際のビジネス環境に導入する前に、その安全性と信頼性を検証することが重要な課題となっています。本論文は、本番環境への導入前にAIエージェントを厳密に評価するためのオントロジーグラウンデッド検証フレームワークを提案しています。提案されたフレームワークは三つの主要コンポーネントで構成されています。第一は「Agent Operational Envelope」で、権限、ドメイン制約、安全特性、ガバナンスルール、自律性レベルにわたる認証空間を形式化します。第二はオントロジー・シナリオ生成パイプラインで、規制的、運用的、および対抗的なテストシナリオを自動的に生成します。第三は機械検証可能な証明を持つ「Trust Certificate」で、承認、条件付き承認、却下のいずれかの導入判定を提供します。研究チームはFintech、銀行、保険、医療の四つの規制産業を対象とした管制パイロットを実施し、米国とベトナムの五つの業界別規制体制セルで1,800のシナリオを生成しました。これらは125の一次情報源規制要件と25個の注入障害に対して評価されました。オントロジーグラウンデッド生成（G4）は、ペルソナベースラインの33.1％に対して48.3％の規制カバレッジを達成し、ドメイン固有性においても4.77/5.0と最高スコアを記録しました。さらに三つのLLMファミリー（Claude Sonnet 4、Qwen 2.5 72B、Gemma 4 26B）を使用した5,400シナリオによる交差検証により、ペルソナベースとオントロジーベースのパターンが再現されました。本研究は、規制集約的なドメインにおいて、オントロジーグラウンデッドシナリオ生成がペルソナベースのテストスイートの信頼できる補完手段となることを実証しています。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

エンタープライズAIエージェントの本番環境前検証：オントロジーベースのシミュレーションと信頼認証

日本語要約青い用語にマウスを合わせると解説が表示されます