arXiv (Robotics)AI
VL-MemKnG:長時間のエゴセントリック移動軌跡に基づく質問応答のためのハイブリッドメモリと時空間知識グラフ
VL-MemKnG: Hybrid Memory with a Spatio-Temporal Knowledge Graph for Question Answering over Long Egocentric Navigation Trajectories
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
長時間のエゴセントリック動画(一人称視点の映像)から質問に答えるタスクは、時間的に離れた複数の瞬間に分散した証拠を検索し、空間的および文脈的一貫性を保ちながら組織化する必要があります。長文脈対応の視覚言語モデルは高い回答品質を実現できますが、長い軌跡に対する計算コストが高く、繰り返しの問い合わせに対して効率的ではありません。VL-KnGなどの最近のグラフベースアプローチは時空間知識グラフを通じてこの課題に対応していますが、グラフ中心の検索だけでは、より広い時間的連続性と文脈的手がかりを過小評価する可能性があります。
本研究で提案するVL-MemKnGは、時空間知識グラフと永続的なセグメントレベルの文脈メモリを組み合わせることで、VL-KnGを拡張したハイブリッドメモリフレームワークです。知識グラフは構造化された関係情報と長距離のオブジェクト関連性をキャプチャしながら、セグメントレベルのメモリは長期の証拠検索のための広い時間的文脈を保持します。ハイブリッド検索推論モジュールは両方のメモリ表現上で共同で動作し、証拠に基づいた回答と時系列的に組織化された支持証拠を生成します。
さらに、長期の移動を指向した動画質問応答に対応するWalkieKnowledgeの拡張版であるWalkieKnowledgeT+も導入しました。このベンチマークには、複数の非共起瞬間にわたる証拠の集約を必要とする時間的分散推論タスクが含まれています。WalkieKnowledgeT+の評価において、VL-MemKnGはTop-1検索精度を58%から67%に改善し、Recall@1を34.50%から40.55%に向上させました。これはGemini 2.5 ProやQwen 3.5+を含むすべての比較手法を上回っています。特に時間的グローバル質問と時間的に散在した集約質問における向上が顕著であり、構造化された関係メモリとセグメントレベルの文脈メモリを組み合わせることの効果が、効率的なクエリ時推論を保ちながら実証されました。