arXiv (CV)AI
VigilFormer:因果的リスク推論を用いた動画異常検知のための変形可能注意機構
VigilFormer: Deformable Attention for Video Anomaly Detection with Causal Risk Inference
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
監視カメラの映像から異常を検出する技術は、検出精度とリアルタイム処理速度のバランスが重要な課題となっています。既存の手法の多くは、より強力な特徴抽出器を用いるか、あるいはより効率的なアーキテクチャを採用するかのいずれかに偏っており、両者を同時に実現することは難しいとされていました。
新たに提案されたVigilFormerは、変形可能なスパーシャル・テンポラル注意機構と因果的なテンポラルモデリングを組み合わせた統合フレームワークで、未編集の監視映像における異常検出を実現します。このモデルの中核となるDeformable Spatio-Temporal Encoder(DSTE)は、複数フレーム間で情報量の多い疎な位置に注目することで、従来の密集注意機構の二次計算量を回避しながら、不規則な動きパターンを捉える能力を保持しています。
さらにCausal Anomaly Classifier(CAC)はスニペットレベルの特徴に対して拡張因果畳み込みを適用し、フレームレベルのラベルなしで異常と正常な表現を分離するコントラスティブ多重インスタンス学習目標を最適化しています。デプロイメント上の制約を満たすため、Adaptive Confidence Scheduler(ACS)は推論時に情報量の少ないフレームを動的にスキップし、静的なシーンでの冗長な計算を削減します。
UCF-Crime、ShanghaiTech、CUHK Avenueの各データセットで評価した結果、VigilFormerは単一GPUで毎秒41.5フレームの処理速度を実現しながら、AUCスコアでそれぞれ87.83%、97.21%、89.74%を達成し、最近の弱教師あり学習ベースの手法を精度と速度の両面で上回っています。