arXiv (CV)AI
TITLE_JA: TSA:ビデオにおけるオブジェクト中心表現の時間的スロット活性化機構
TSA: Temporal Slot Activation for Persistent Object-Centric Video Representation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
動画から動的なシーンを個別のオブジェクト表現に分解する教師なし学習は、コンピュータビジョンの重要な課題です。既存の再帰型ビデオスロット注意機構は、フレーム間で固定されたスロットセットを伝播させていますが、各フレームで全スロットを無条件に更新・デコードするという設計上の問題を抱えていました。この無条件伝播により、オブジェクトが非表示または完全に遮蔽されている場合、スロットは前の状態を保持し無関係なコンテンツを説明すべきではないという、永続的スロットの基本的なライフサイクル要件が違反されます。
研究者らは、この設計の欠陥として2つの故障経路を特定しました。一つは更新誘発状態ドリフト(absent objectの表現が現在フレームの証拠で上書きされる)、もう一つはデコーダ誘発再構成干渉(非活性スロットがデコーダの注意により再構成に結合し続ける)です。これらの問題を解決するため、研究チームはTemporal Slot Activation(TSA)と呼ぶ新機構を提案しました。TSAは視認性の教師信号なしに、スロットごと、フレームごとの活性化スコアα_{k,t}∈(0,1)を学習します。
TSAの核となるのは、この活性化スコアをスロットライフサイクルモデリングの共有潜在制御変数として機能させることです。スロットが非活性時、TSAは活性化ゲート付き更新を通じてその状態を前のスロットに固定し、ソフトマックス正規化前の注意ロジットに活性化依存の加算バイアスを加えることでデコーダ参加を抑制します。さらに、Temporal Context Encoderによって生成されたスロット単位の時間記憶に基づいて活性化予測を条件付けることで、部分遮蔽と段階的な再出現の判定を改善しました。MOVi-C/E、YT-VIS、OVISベンチマークでの評価では、FG-ARI、mBO、IDF1、HOTAといった標準メトリクスとトラッキングベースメトリクスの両方において一貫した改善を達成し、特に長時間で大きく遮蔽されたビデオで顕著な向上を示しました。