arXiv (CV)AI
VideoKR:知識集約的で推論が必要な動画理解の新しいアプローチ
VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
動画の内容を深く理解し、そこから推論を導き出すことは、人工知能にとって極めて困難な課題です。テキストベースの質問応答とは異なり、動画理解には視覚情報の処理、時系列の把握、そして専門知識を組み合わせた複雑な推論が必要とされます。このような課題に対応するため、研究チームはVideoKRという初の大規模学習コーパスを開発しました。
VideoKRは145,000本の新たに収集された専門領域の動画に対して、315,000個の動画推論例で構成されています。これらの動画はすべてクリエイティブ・コモンズ・ライセンス下で提供されており、商用利用も可能です。研究チームは人間が介入するループ内で、スキル志向の例生成パイプラインを開発しました。このパイプラインは、段階的により深い動画推論能力を習得させながら、例とその思考チェーン(CoT)の説明の両方について、難易度、多様性、信頼性を確保するように設計されています。
さらに、研究者たちはVideoKR-Evalという専門家による注釈付きベンチマークも作成しました。このベンチマークの重要な特徴は、質問がテキストだけで解答できるショートカットを排除し、本当の意味での動画理解と知識集約的な推論を必要とする点です。実験結果は、標準的なSFT(教師あり微調整)とGRPO(報酬勾配ポリシー最適化)のパイプラインの下で、VideoKRを用いた事後学習モデルが、知識集約的な動画推論タスクで既存の手法を上回る性能を発揮しながら、一般的な動画推論タスクでも競争力を保つことを示しています。この研究は、データ設計が動画推論の進化における重要な駆動力であることを強調しており、今後の研究開発に対して実践的な洞察を提供しています。