arXiv (AI)AI
マルチモーダルLLMにおける聴覚と視覚情報の流れ:感覚から決定へ
From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチモーダル大規模言語モデル(MLLM)は音声と映像の両方を処理できますが、これらの信号がネットワーク内でどのように流れて最終的な回答を形作るのかについては、まだ十分に理解されていません。本研究は、音声・視覚統合大規模言語モデル(AVLLM)内部における情報フローの仕組みを初めて体系的に検証したものです。
研究チームは、Qwen2.5-Omni と Video-SALMONN2 Plus の3B・7Bスケールの複数モデルを使用して、音声・視覚情報がどのようにルーティング、利用、統合されるかを追跡しました。その結果、音声・映像を含むビデオ入力では、既存の視覚言語モデル(VLM)やビデオLLMで確立されたシーケンシャルな情報流パターンに従うことが明らかになりました。音声と視覚の寄与度は、タスクが各モダリティに依存する程度に応じて流れていきます。
一方、複数の音声・視覚要素がインターリーブされた設定では、情報ルーティングが異なる並列ストリームに切り替わることが判明しました。さらに興味深いことに、音声・視覚トークンとその他のトークンは、情報がLLMに転送された後は削除できることが実証されました。この削除により、モデルの予測精度はほぼ維持され、むしろ若干の改善さえ見られる場合もあり、複数のタスクとデータセットで一般化可能であることが確認されました。
これらの知見は、AVLLMが音声と視覚をネットワーク内でどのように調整しているかについて初めての統合的な理解をもたらし、マルチモーダルLLMの解釈可能性、設計、推論効率の向上に向けた基礎を確立するものとなります。