arXiv (CV)AI
TITLE_JA: 空間領域から周波数領域へ:小物体検出のための効率的な周波数ガイド特徴表現学習
From Spatial to Spectral: An Efficient, Frequency-Guided Feature Representation Learner for Small Object Detection
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
小物体検出は、微小なターゲットが本来持つ特徴情報の希少性によって性能が制限されており、この課題はさらに深刻化している。従来の空間領域ベースの物体検出器は、重要な高周波成分を無差別に破棄してしまい、その結果として検出精度が低下する傾向にある。これらの脆弱な手がかりを空間領域内で復元することは計算コスト的に非常に困難であり、多くの場合、ネットワーク規模の拡大が必要となるが、これに伴い背景ノイズも増幅されてしまうという悪循環に陥る。
本研究は、空間領域から周波数領域へと特徴処理のパラダイムシフトを提案することで、この問題に対処する包括的なソリューションを導入している。まず、CNN およびTransformer ベースの両方の検出器アーキテクチャに対応した汎用的な「周波数ガイド特徴表現フレームワーク」を開発し、空間領域のみの特徴抽出に代わる堅牢な代替手段を提供する。次に、「分解・強化・再構成(DER)」という統一的なオペレータを提案し、これを3つの軽量でプラグイン可能なモジュール——ウェーブレット差分ゲート(WDG)、対数ガボールエンハンサー(LGE)、周波数駆動ヘッド(FDHead)——で実装している。これらのモジュールはバックボーン、ネック、ヘッドに周波数認識の変調を体系的に注入し、特徴モデリングを解像度低下から分離することで、パラメータ冗長性を大幅に削減しつつ、判別的な高周波成分をキャプチャし、正確なローカライゼーションを実現する。
VisDrone2019、UAVDT、TinyPerson、DOTAv1 といった複数ドメインのベンチマークでの広範な検証結果は、一貫した性能向上を示している。特に提案する DERNet シリーズは、YOLOv11 と同じスケールで比較した場合、わずか1/6 のパラメータ数で優れた性能を発揮することが実証されており、厳密な周波数診断および誤差分解分析によって裏付けられている。