arXiv (CV)AI
TITLE_JA: CFCamo:迷彩物体検出のための反事実的検出・棄却フレームワーク
CFCamo: A Counterfactual Detect-or-Abstain Framework for Camouflaged Object Detection
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ビジョン言語強化学習は最近、迷彩物体検出(COD)における対象物の位置特定で優れた成果を上げています。しかし、位置特定は意思決定の一側面に過ぎません。エージェントが迷彩物体を含まない通常の画像に直面した場合、それでも迷彩物体が存在すると主張するでしょうか。標準的なCODの学習・評価データはポジティブサンプルのみで構成されているため、この設定下で最適化されたエージェントは「過検出バイアス」を獲得する傾向があります。これは標準的なCOD評価では測定されないタスク固有の物体幻覚現象です。
このターゲット非存在時の振る舞いを定量化するため、研究チームはCounterfactual COD(CF-COD)という対となるベンチマークを構築しました。各COD評価画像から迷彩対象物を除去しつつ、妥当な背景を保持する手法です。CF-CODは、モデルが元の画像ではターゲットを検出し、ターゲット非存在の反事実的画像では棄却するかどうかを評価します。この評価はペアアキュラシー(PA)で要約されます。
研究チームはさらにCFCamoという、棄却機能付きのCOD向け反事実的フレームワークを提案しました。学習では、Qwen3-VL-4B-Instructエージェントを反事実的シーケンスポリシー最適化(CSPO)で最適化します。このアプローチは対となった元画像と反事実的画像のロールアウトをサンプリングし、反事実的ペア報酬(CPR)を使用して元画像での検出と反事実的画像での棄却を結合します。CAMO-testではCFCamoが先行するRL基盤CODベースラインに対してS_alphaを+3.7ポイント改善し、CF-COD全体で80.0~90.8%のPAに達しました。アブレーション研究により、反事実的結合を除去するとターゲット非存在検出の正確度が1.4~5.2%に低下することが示され、ターゲット存在評価だけではターゲット棄却の振る舞いを完全に特徴づけられないことが明らかになりました。