arXiv (CV)AI
プライバシーを保護しながら集団の感情を認識する——マルチモーダル感情認識の新しいアプローチ
Multimodal Group Emotion Recognition In-the-Wild Towards a Privacy-Safe Non-Individual Approach
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
従来の感情認識技術は、顔認識、視線追跡、音声分析といった個人単位の情報に依存してきました。しかし、このアプローチは個人の監視やプライバシー侵害のリスクを伴います。本論文は、このような懸念に対処するため、集団レベルの感情認識(GER)に焦点を当てながらプライバシー保護を実現する新しい手法を提案しています。
提案される最初のフレームワークは、音声と映像信号を統合するクロスアテンション型マルチモーダルアーキテクチャです。これは時間軸での情報集約を行うFrames Attention Pooling(FAP)と組み合わされており、合成データによる拡張と詳細なアブレーション研究を通じて検証されています。このアプローチにより、実世界の複雑な環境下でも堅牢な性能を発揮することが示されています。
第二のフレームワークであるVariational Encoder Multi-Decoder(VE-MD)は、感情分類と身体・顔などの構造的特徴の表現予測を行うための共有潜在空間を学習します。DETR(Detection Transformer)ベースとヒートマップベースの2つのデコード戦略が探索され、構造的表現が集団および個人レベルの感情認識に果たす役割が分析されます。本研究の主な貢献は、グループレベルのアフェクティブコンピューティングにおけるマルチモーダル性と構造的手がかりの役割を明確にすること、プライバシー保護型マルチモーダル感情認識の2つのアーキテクチャを提案すること、そして個人的特徴を入力データとして使用せずに競争力のある性能を達成できることを実証したことです。