arXiv (ML)AI
TITLE_JA: SynIB:マルチモーダル学習における相乗効果を最大化するための情報ボトルネック
SynIB: Informational Bottleneck for Maximizing Synergy in Multimodal Learning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチモーダル学習における中心的な課題は、複数のモダリティを組み合わせることによってのみ生じるタスク関連情報である「相乗効果(synergy)」を捉えることです。この相乗効果は、単一のモダリティからは得られない情報であり、クロスモーダル推論を必要とします。従来のアプローチがより大規模で複雑な融合モデルというアーキテクチャレベルに焦点を当てていたのに対し、新たな研究は訓練目的関数そのものを設計する補完的なアプローチを提案しています。
標準的な訓練では単一モダリティまたは冗長な情報が強調されるため、クロスモーダル推論が必要な事例で十分な性能が得られないという問題があります。この研究では、相乗情報ボトルネック(SynIB)と呼ばれるスケーラブルな目的関数を情報理論に基づいて導入し、相乗効果を直接的に目標とします。SynIBは、すべてのモダリティから正確に予測するよう促しながら、いずれかのモダリティの情報が欠落しても高い信頼度を示さないようにペナルティを与えます。実装上、標準的なタスク損失に加えて、一度に1つのモダリティをマスクした状態で前向きパスを実行し、単一モダリティの手掛かりに依存しているのではなくクロスモーダル相互作用を利用していることを確認します。
合成的なXOR課題やMultiBench感情分析タスク、CLIP-ViTおよびDeBERTaバックボーンを用いたHateful Memesなど、5つの実世界ベンチマークでの検証を通じて、SynIBは相乗効果に依存する事例の精度を最大7.8%、全体精度を最大3.8%向上させることが示されました。標準訓練では回復不可能な合成課題での相乗効果をSynIBが正しく学習できることも実証されています。