arXiv (CV)AI
GOPAgen:動き認識と効率的な構造化メモリを備えた長編動画理解のための階層的推論システム
GOPAgen: Motion-Aware and Efficient Agentic Long-Video Understanding with Structural Memory and Hierarchical Reasoning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
動画理解技術の分野において、長編動画の詳細な内容を効率的に分析することは依然として大きな課題です。既存の手法の多くは、動画内の複雑な動きの理解が十分でなく、また大量の動画データを処理するためのメモリ管理も効率的ではありませんでした。
こうした課題に対し、新たに提案されたGOPAgenというシステムは、動画コーデックの仕組みを深く活用した革新的なアプローチを採用しています。具体的には、動画コーデックから抽出されたGOP(Group of Pictures)と呼ばれる画像グループに基づいて訓練された動き認識エージェントを組み込んでいます。このアプローチにより、動画内の局所的かつ詳細な動きをより正確に把握することが可能になります。
さらに、GOP木推論アルゴリズムという独自の推論手法を開発し、動画コーデックの階層構造と自然に調和させることで、複雑な動きの理解能力を強化しています。同時に、構造化メモリ機構を慎重に設計し、局所的な動き情報と詳細なキャプション情報を構造化ページに統合することで、より効果的な情報管理を実現しています。さらに動きベクトルデータベースを組み込むことで、複数の粒度レベルでの効率的な動きベクトル検索が可能になっています。
これらの工夫により、GOPAgenはVQA(Video Question Answering)タスクにおいてMotionBenchとEgoschemaを含む複数のベンチマークで優れた性能を達成し、提案フレームワークの優位性を実証しています。