arXiv (AI)AI
TITLE_JA: RIFT-Bench:エージェンシャルAIシステムのための動的レッドティーミング手法
RIFT-Bench: Dynamic Red-teaming For Agentic AI Systems
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)によって駆動されるエージェンシャルAIシステムは、自律的な意思決定システムへと急速に進化しており、従来のLLM脆弱性を超えた新たな攻撃経路を露呈させている。これらの高度に複雑化したシステムの安全性評価は、特定の実装方式やドメインに依存することが多く、異なるアーキテクチャを持つシステム間での統一的な比較が困難であった。この課題に対処するため、研究者らはRIFT-Benchという革新的な評価手法を提案した。
RIFT-Benchはグラフ表現駆動型の方法論に基づいており、多様なエージェンシャルアーキテクチャ間での統一的な評価を実現する。階層的な表現モデルを基盤とした本手法は、Discovery(発見)とScanning(スキャン)という2つの自動化フェーズで動作する。Discovery フェーズではシステム構造を抽出し、Scanning フェーズでは適応的な敵対的攻撃を展開し、包括的な評価レポートを生成する。
実験では、様々な実装方式を網羅する45個のエージェンシャルシステムにわたって本評価パイプラインの有効性を実証した。結果として、このアプローチが異なるアーキテクチャを持つエージェンシャルシステムに対して高い汎用性を持つことが確認された。多様な攻撃ベクトルと目的にわたる動的に適応可能な敵対的プローブの幅広いセットを活用することで、システム自体の脆弱性を詳細に評価できるようになった。
さらにRIFT-Benchは、防御戦略の直接的な評価も支援する。これらの重要な機能により、RIFT-Benchはエージェンシャルなど高度なAIシステムのセキュリティ評価における拡張可能な基盤となる。