arXiv (CV)AI
TITLE_JA: 見ることが信じることではない――検索ベースの動画偽情報検出ベンチマーク
When Seeing Is Not Believing -- A Benchmark for Search-Grounded Video Misinformation Detection
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
動画偽情報の脅威が急速に進化しており、単なる視覚的な改ざんだけでなく、意味論的および証拠レベルでの操作が増加しています。本来は真正な映像であっても、選別編集、時間軸の並び替え、複数ソースの合成、あるいはAI生成コンテンツの追加を通じて、虚偽の物語が構築される可能性があります。このような証拠に依存した操作は、入力された動画単体では確実に検証できません。偽った証拠や並び替えられた証拠、置き換えられた証拠が動画の外側に存在するためです。
研究チームは「EVID-Bench」という新しいベンチマークを導入しました。これは検索ベースの動画偽情報検出に特化したもので、システムがオープンウェブから関連動画を検索し、複数動画間の比較を通じて虚偽情報を特定する必要があります。EVID-Benchは222本の動画で構成され、AI生成、単一ソース編集、複数ソース編集の3カテゴリーにわたる9種類の操作パターンを網羅しています。すべてのサンプルは、視覚検査のみでは最先端のモデルが検出不可能であることが確認されています。
研究チームは9つの最先端マルチモーダルモデルを検索拡張認証ベースラインで評価しました。最高性能のシステムでさえ、ポイントレベルの精度で61.43%、動画レベルの精度で43.24%に留まり、特にAI生成された操作は極めて困難な課題となっています。エラー分析によると、モデルは無関係なアンカーに固執する、合成コンテンツを編集スプライシングに誤認識する、操作の完全な説明の前に検索を途中で終了するといった課題が繰り返し生じています。