arXiv (CV)AI
TITLE_JA: WorldBench:マルチモーダル推論能力を評価する視覚的に多様で挑戦的なベンチマーク
WorldBench: A Challenging and Visually Diverse Multimodal Reasoning Benchmark
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
現実世界のアプリケーションでは、AIモデルが様々な環境で確実に機能することが求められます。しかし、既存のマルチモーダルベンチマークの多くは、タスクの種類を増やす一方で、開放的な視覚入力に対応するために必要な視覚的な多様性を十分に捉えていません。こうした課題に対応するため、研究者らはWorldBenchという新しいベンチマークを開発しました。このベンチマークはマルチモーダル大規模言語モデル(MLLM)の推論能力を評価するために設計されており、挑戦的かつ視覚的に多様な問題セットを提供します。
WorldBenchの構築では、まず生物や自然物を含む複数の領域にわたって数千の視覚概念を分類する体系を作成しました。この分類体系に基づき、検索エンジンと既存のデータセットから幅広く画像を収集し、視覚世界を包括的に代表するコレクションを整備しました。その後、構造的な試行錯誤プロセスを通じて、最先端のMLLMモデルでも答えられない挑戦的な質問を手作業で設計しました。
定量的評価と人間による評価の結果、WorldBenchは既存のいかなる多様性ベンチマークよりも高い視覚的多様性を実現しています。15個のMLLMをWorldBenchで評価した結果、視覚理解における深刻な弱点が明らかになりました。最強のモデルでさえ64.0%の精度にとどまり、一部のモデルはランダム予測とほぼ同等の性能しか示していません。この研究は、マルチモーダルベンチマーク開発において視覚的多様性がいかに重要であるかを強調しています。