arXiv (CV)AI
複数モデル間の不一致を活用した暗黙的動画質問応答ルーティング手法
Disagreement-Based Cross-Model Routing for Implicit Video Question Answering
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
動画コンテンツから暗黙的に推論が必要な質問に答えるタスクは、コンピュータビジョンと自然言語処理の境界領域において特に難しい課題です。ImplicitQAベンチマークでは、画面に直接表示されていない情報、視線のキューライン、因果関係、複数ショット間の空間的配置など、多層的な推論が要求されます。この研究は、そうした難問に対処するための革新的なアプローチを提案しています。
単一のフロンティア動画LLMであるGemini 1.5 Pro Previewを用いた場合、ベンチマーク上ではすでに精度の上限に近い性能に達しています。しかし従来の自己一貫性戦略、つまり同じモデルの複数サンプルで多数決を取る手法は、むしろ性能を低下させることが観察されました。これは、難しい問題に対するモデルのエラーが相関を持つためです。
研究チームが提案した「不一致ベース交差モデルルーティング」は、推論時のみで動作し、ラベルやトレーニングを一切必要としない手法です。ネイティブ動画モデルをゼロ温度で3回サンプリングし、動画処理パイプラインの本質的なサンプル間分散を活用して、3つのサンプルが不一致を示す約20%の質問を特定します。その後、異なるモデルファミリーに属するClaude Opus 4.8へとルーティングします。このモデルは均一にサンプリングされたフレームを適応的な思考機構で処理します。
1001問の検証セットでは、提案手法は主要モデルの最良単一サンプルと比べて平均精度を1.43ポイント向上させました。特にMotion & Trajectory(+5.49)、Inferred Counting(+3.45)、Vertical Spatial Reasoning(+1.82)といった、複数ショット間の参照解決に依存するカテゴリで大きな改善が見られました。CVPR 2026のチャレンジテストセット(172問)への適用でも82.03%の精度を達成し、検証結果の再現性が確認されています。