arXiv (CV)AI

AVTrack：複雑な人間中心シーンにおける音声映像追跡

AVTrack: Audio-Visual Tracking in Human-centric Complex Scenes

2026年6月3日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

音声と映像の両方の情報を組み合わせて話者を特定・追跡する音声映像話者追跡技術は、人間中心のシーン理解において重要な役割を果たします。インテリジェント動画編集、監視システム、人間とコンピュータのインタラクションなど、実世界の様々なアプリケーションに不可欠な技術です。しかし従来の研究で使用されてきたデータセットは、単純で均一な音声映像シーンに限定されており、粗い注釈にとどまっていました。このような過度に単純化された設定では、静的な音声映像の共現性の評価に偏りがちで、複雑で動的なシーンにおける堅牢な時空間モデリングとクロスモーダル推論を厳密に評価することが難しいという問題がありました。これらの課題に対応するため、研究チームは「AVTrack」という人間中心の音声映像インスタンスセグメンテーション（AVIS）データセットを開発しました。AVTrackは実世界の動的なシナリオに対応するよう設計されており、カメラの動き、視覚的な遮蔽、位置変化など、多様かつ挑戦的な条件を含んでいます。既存のAVIS手法をAVTrackで評価したところ、性能が大幅に低下することが確認されました。この結果により、AVTrackは複雑な環境における堅牢な人間中心の音声映像シーン理解のためのベンチマークとして確立されました。研究チームは同時に、今後の研究を促進するためのシンプルながら効果的なベースラインモデルも提供しており、プロジェクトウェブサイトで詳細な情報が公開されています。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

AVTrack：複雑な人間中心シーンにおける音声映像追跡

日本語要約青い用語にマウスを合わせると解説が表示されます