arXiv (ML)AI
AIは科学図を描けるか?テキスト・画像変換モデルと多模態モデルによる科学図生成の評価ベンチマーク
Can AI Draw Science? A Benchmark for Evaluating Scientific Figure Generation by Text-to-Image and Multimodal Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
テキスト・画像変換モデルや多模態生成モデルは、メカニズム図、実験設計スキーマ、概念フレームワーク、グラフィカルアブストラクトといった科学図の作成に急速に活用されるようになっています。しかし既存の画像生成ベンチマーク(GenEval、T2I-CompBench、DPG-Benchなど)は自然画像を評価対象としており、構成要素の正確性、物体計数、写真のようなリアルさといった観点から測定されています。生成された科学図が実際に使用可能であることを示す、正確で判読可能なテキストラベル、実体とその関係の忠実な描写、一貫した図式構造、学問分野の描画慣例への準拠といった要素を測定するベンチマークは存在していませんでした。
本研究では、SciDraw-Benchという新しいベンチマークを開発しました。これは32の構造化された科学図生成タスクで構成され、8つの図表タイプと10の学問分野にわたっています。各タスクは自然言語プロンプトと、必要なラベル、関係、構成要素、慣例、否定的制約を機械的に検証できる仕様を対応させています。評価プロトコルは4つの次元で構成されています。すなわち、テキスト忠実性(OCRベースのラベル再現率と文字誤り率)、意味的正確性(仕様に対する視覚言語モデルによる判定)、構造的品質、慣例準拠性です。同時にメタ評価プロトコルと予備的な判定者間信頼性分析も提案されています。
分野特有のシステムであるSciDraw AIを汎用的なテキスト・画像変換モデルと比較評価したところ、すべての次元と図表タイプにおいて分野特有システムが大幅に上回りました。特に意味的正確性と慣例準拠性で最大の差が見られました。一方、テキスト忠実性はすべてのシステムにとって最も困難な課題として残されています。