arXiv (CV)AI
CPG-PAD:概念駆動プロンプトによる顔認証なりすまし検知の高度化
CPG-PAD: Concept-Informed Prompts Guided Presentation Attack Detection
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
顔認証システムへの脅威が増す中、印刷された写真やビデオの再生、3Dマスクなどを利用した「プレゼンテーション攻撃」から防御するために、プレゼンテーション攻撃検知(PAD)技術が重要な役割を果たしています。従来のPADモデルは、カメラセンサーの違い、照明条件、攻撃材料の多様性など、見たことのないドメインへの汎化性能に課題を抱えていました。
近年、Vision-Language Models(VLM)が強い汎化能力を示していますが、PADへの応用は限定的でした。従来の学習済みプロンプトは、クラスラベルの教師あり学習のみで最適化されるため、攻撃に関連した細粒度の視覚的意味論と明示的に整合していません。その結果、学習された表現は転移可能な攻撃の手がかりではなく、ドメイン固有のノイズに過剰適合してしまいます。
本研究が提案するCPG-PADは、プロンプト学習プロセスにモデルレベルの概念ガイダンスを導入したフレームワークです。Visual Concept-driven Enhancement(VCE)モジュールが説明可能AI(XAI)技術を用いてPAD関連の視覚概念を自動発見し、概念関連のヒートマップを生成します。これらのヒートマップに導かれ、Prompt-based Concept Injection(PCI)メカニズムが概念をプロンプト空間に統合することで、プロンプトとモデルの内部概念空間が整合します。
9つのベンチマークデータセットでの実験により、CPG-PADはマルチソース、限定ソース、単一ソースの各設定における複数ドメイン間での性能で、最先端の結果を一貫して達成しました。ドメイン不変な攻撃の手がかりを捉えながら、データセット固有のバイアスを効果的に抑制する設計になっています。