arXiv (CV)AI
TITLE_JA: DMV-Bench:視覚的手がかり注入による長期マルチモーダルエージェントの視覚記憶診断
DMV-Bench: Diagnosing Long-Horizon Multimodal Agents' Visual Memory with Incidental Cue Injection
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
エージェントの記憶能力に関する研究は急速に進展していますが、その大部分がテキスト処理に集中しており、実際に視覚情報の記憶が必要となるインタラクティブな環境での評価はほとんど行われていません。新たに発表されたDMV-Bench(ダイアグノスティック・マルチモーダル・ビジュアルベンチ)は、マルチモーダルエージェントの視覚記憶を評価する初のインタラクティブベンチマークです。このベンチマークは家具eコマースの1,000種類の商品バリアント(テキスト流出を防ぐ仕組み付き)を用いて構築されており、タスクの識別信号がピクセル情報のみに含まれるという厳密な設定になっています。
一連の自動買い物セッションを通じて、訪問した各商品画像には事前にレンダリングされた付随的な視覚的手がかりが付与されます。エージェントはその後、特定の手がかりを持つ商品を思い出し、その商品のURLにナビゲートするという課題に直面します。この研究では双符号化理論からインスピレーションを得た「DualMem」という新しいメモリアーキテクチャを提案しています。このアーキテクチャは視覚コードと言語コードを並行して維持することで、より効果的な情報保持を実現します。
DMV-Bench上での実験結果によると、DualMemはキャプション生成ベースラインおよび最近のマルチモーダルエージェント記憶システム3つを上回る性能を発揮しています。この優位性は、チェーン長5、10、15、50のすべてのケースで、Gemini 2.5 FlashおよびQwen2.5-VL-7Bの両モデルに対して確認されました。さらに注目すべき点として、メモリバンクサイズやエンコーディング位置バイアスの影響を制御した場合でも、この性能向上が維持されることが検証されています。