arXiv (CV)AI
TITLE_JA: デュアル状態スロット注意機構:ビデオオブジェクト中心学習における外観とアイデンティティの分離
Dual-State Slot Attention: Decoupling Appearance and Identity for Video Object-Centric Learning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ビデオシーンを教師なしで物体レベルの表現に自動分解する「ビデオオブジェクト中心学習」の分野において、新たな手法が提案されました。これまでのスロット基盤手法には大きな課題がありました。既存手法では、物体の1フレームごとの外観情報と時間軸での識別情報を単一のスロットベクトルに詰め込んでいたため、相互に矛盾した目標が発生していたのです。再構成には視覚的な変化への敏感性が必要な一方で、時間的一貫性には変化への不変性が必要であり、この矛盾がスロット入れ替わり問題を引き起こしていました。加えて、従来の正規化手法はうまく機能していないスロットを増幅させ、他の物体のトークンを吸収して対応関係を不安定化させていました。
新提案の「デュアル状態スロット注意機構(DSSA)」は、これらの課題を根本的に解決するアプローチです。各スロットを2つの異なる状態に分解します。1フレームごとの外観を担当するローカル状態と、時間的に安定した物体情報を扱うアイデンティティ状態です。この分離により、再構成と時間的一貫性を別々の表現で実現できるようになりました。アイデンティティ状態は学習された再帰的遷移を通じて更新され、ローカル状態に対する時間フィルタとして機能します。さらに「競争調整集約(CMA)」という機構が、弱い照合をするスロットからの更新を抑制し、他の物体のトークン吸収を防止します。
MOVi-C、MOVi-D、YouTube-VISといった複数のベンチマークデータセットでの実験結果から、DSSAは先行手法を大幅に上回るセグメンテーション品質と時間的一貫性を実現することが確認されました。さらに下流タスクである物体認識やビデオダイナミクス予測においても強い性能を示しています。この完全自己教師あり学習フレームワークは、急速な動きや部分的遮蔽といった難しい環境条件下でも、安定した物体追跡を実現する新たな可能性を開いています。