arXiv (CV)AI
AVTrack:複雑な人間中心シーンにおける音声映像追跡
AVTrack: Audio-Visual Tracking in Human-centric Complex Scenes
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
音声と映像の両方の情報を組み合わせて話者を特定・追跡する音声映像話者追跡技術は、人間中心のシーン理解において重要な役割を果たします。インテリジェント動画編集、監視システム、人間とコンピュータのインタラクションなど、実世界の様々なアプリケーションに不可欠な技術です。しかし従来の研究で使用されてきたデータセットは、単純で均一な音声映像シーンに限定されており、粗い注釈にとどまっていました。このような過度に単純化された設定では、静的な音声映像の共現性の評価に偏りがちで、複雑で動的なシーンにおける堅牢な時空間モデリングとクロスモーダル推論を厳密に評価することが難しいという問題がありました。
これらの課題に対応するため、研究チームは「AVTrack」という人間中心の音声映像インスタンスセグメンテーション(AVIS)データセットを開発しました。AVTrackは実世界の動的なシナリオに対応するよう設計されており、カメラの動き、視覚的な遮蔽、位置変化など、多様かつ挑戦的な条件を含んでいます。
既存のAVIS手法をAVTrackで評価したところ、性能が大幅に低下することが確認されました。この結果により、AVTrackは複雑な環境における堅牢な人間中心の音声映像シーン理解のためのベンチマークとして確立されました。研究チームは同時に、今後の研究を促進するためのシンプルながら効果的なベースラインモデルも提供しており、プロジェクトウェブサイトで詳細な情報が公開されています。