arXiv (NLP)AI
TITLE_JA: 科学論文の複雑な図表を説明するビデオ生成システムの開発
Helping Figures Tell their Story! Paper-Grounded Video Generation Explaining Complex Scientific Figures
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
科学論文に掲載される図表は、複雑な研究プロセスを1枚のキャンバスに圧縮して表現していますが、これを理解するには段階的な説明が必要です。論文の内容と図表の各領域を対応させながら、ナレーション付きで順を追って説明するビデオがあれば、読者の理解が大きく進むでしょう。しかし現在の動画生成システムやベンチマークには、こうした「論文に根ざした」詳細な説明機能が備わっていません。
この課題に対応するため、研究チームは「論文に根ざした図表からビデオへの生成」という新しいタスクを提案しました。論文本文と図表から、ナレーション付きのウォークスルービデオを自動生成するというものです。このシステムはMINARD(Multimodal Interpretation of Narrated Architecture via Region Decomposition)と名付けられており、論文に基づいた説明文を生成した後、それらを図表の特定領域に順序立てて対応させていきます。
同時にチームは「FigTalk」という新しいベンチマークデータセットを公開しました。このデータセットには、段階的な対応関係と構成要素レベルでの接地度を測定する新しい評価指標が含まれています。FigTalk上での評価の結果、MINARDは人間らしく論文に忠実なナレーションを生成し、既存アプローチを自動評価と人間評価の両面で上回るパフォーマンスを発揮しました。