arXiv (CV)AI
TITLE_JA: 都市規模の画像位置認識における地理的不均衡への対処:長尾分布問題を解決するDAP R手法
Lost in the Tail: Addressing Geographic Imbalance in Urban Visual Place Recognition
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
都市規模の画像位置認識(VPR)は、クエリ画像を地理情報付きデータベース内の画像と照合することで、その撮影地点を特定する技術である。近年の手法は印象的な性能を示しているものの、都市規模データセットに潜む深刻な「長尾問題」を見落としている。この問題により、画像が豊富に存在する位置情報では精度が高い一方で、訪問者が少ない地域ではモデルの認識性能が大幅に低下する傾向が生じている。つまり、頻繁に撮影される繁華街や有名スポットに対しては高い認識精度を示すが、撮影画像が少ない周辺地域ではモデルの性能が著しく劣化するという不均衡が発生していた。
本研究では、この地理的不均衡の課題を体系的に分析し、Distribution-Aware Place Recognition(DAPR)と呼ぶモデル非依存のプラグイン型フレームワークを提案した。DAPRは勾配の寄与度を頭部クラスと尾部クラス間で再均衡化し、長尾分布の影響を軽減する仕組みを備えている。また分類・検索パイプラインの中に多スケール距離探索メカニズムを組み込み、クラスごとの分布の密集度を計算することで、検索段階での相補的な改善を実現している。
大規模ベンチマークのSF-XLデータセットでは、提案フレームワークが従来の分類・検索ベースラインを上回る成績を達成し、テストセットv1で18.3%、v2で6.7%の性能向上を記録した。プラグイン型モジュールとして実装されたDAPRは、SF-XL、MSLS、Pitts30kなどの複数のベンチマークにおいて、代表的なVPR手法全般に対して一貫した改善をもたらす。この結果は異なる手法とベンチマーク間での汎用性を実証し、実世界の都市規模位置認識の実用化に向けた重要な進展を意味している。