arXiv (AI)AI
TITLE_JA: OmniMem:ストリーミング音声映像LLMのための摂動対応メモリ圧縮
OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
長時間の動画理解を実現するための音声映像LLMの研究が進む中、推論時におけるメモリ効率の改善が急務となっています。動画トークンとキー・バリュー(KV)キャッシュが線形に増加することで、長時間動画の処理が根本的な制約に直面しているのです。このような課題に対応するため、新たなフレームワークOmniMemが提案されました。
OmniMemの最大の特徴は、従来の圧縮手法とは異なり、すべてのトークンを均等に扱うのではなく、モダリティ対応のメモリ配置戦略を導入している点です。動画と音声という異なる情報源からのトークンに深刻な不均衡が生じることに着目し、視覚コンテキストと音声コンテキストを個別に管理することで、より効率的なメモリ活用を実現しています。さらに、摂動対応メモリ選択により、情報量の多い冗長性のないKV状態を保持することで、長距離の理解能力を損なわないコンパクトなメモリ構成が可能になります。
実運用環境の制約条件下での圧縮性能を強化するため、予算対応ファインチューニングも導入されました。これにより、モデルが有用な情報を保持メモリに効率的に集約するよう学習させることができます。VideoMME Long、LVBench、LVOmniBenchなどのベンチマークでビデオ-SALMONN 2+とQwen-2.5-Omniを用いた実験結果から、OmniMemは同じメモリ予算下で既存の訓練不要圧縮手法を2~4%の絶対精度で上回り、ファインチューニング後にはさらに1~2%の改善が得られることが確認されています。