arXiv (CV)AI
VisualLeakBench:ビジョン言語エージェントにおける行動境界を越えた情報漏洩の再現可能な評価ベンチマーク
VisualLeakBench: Reproducible Action-Boundary Propagation Failures in Vision-Language Agents
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
Vision-Language Model(VLM)を搭載したエージェントが、スクリーンショットやドキュメント、ユーザーインターフェースを入力として処理し、その内容をメモリに記録したり、メッセージを送信したり、外部ツールを呼び出す機会が増えている。このような用途の中で、新たなセキュリティ上の問題が顕在化しつつある。画像に含まれる機密情報や危険なテキストが、エージェントの処理を通じてダウンストリームのツール引数にコピーされてしまう「行動境界伝播」という失敗モードである。
研究チームはこの問題を調査するため、VisualLeakBenchという包括的なベンチマークを開発した。UI、チャット、ドキュメント、フォーム、ダッシュボードなど多様なシーン横断で500枚の画像で構成され、4つの本番環境VLMシステムに対してノート取得と外部ハンドオフの2つのワークフロー下で100枚の層別サンプルセットを評価している。
ベースライン条件下では、個人識別情報(PII)の場合で78.8%、表示された危険なテキストの場合で85.5%の確率で対象文字列がツール引数に伝播することが判明した。防御的なシステムプロンプトを使用した場合、表示された危険なテキストの伝播率は依然として52.6%と高いままであったのに対し、PII関連のツール伝播は2.0%まで低下した。ただしこれは、ツール利用を抑制することで達成されたもので、機能性の維持とのバランスが課題として残る。また漏洩率はツールの種類に依存し、検索的なツールはPII伝播を抑制する傾向があるが、表示された危険なテキストはなおツール境界を越えて流出する傾向が観察された。本研究は視覚入力からツール引数への伝播を測定しており、さらに標識対象のオラクル上界診断を提供することで、ほとんどの失敗がツール境界に位置することを特定している。