arXiv (CV)AI
KathaTrace:生成ビジュアルナラティブにおけるセマンティック軌跡の崩壊を診断する
KathaTrace: Diagnosing Semantic Trajectory Collapse in Generated Visual Narratives
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ストーリーボード、漫画、児童向けメディア、映画のプリビジュアライゼーションなど、視覚的ナラティブは物語を理解するうえで中心的な役割を果たしています。これらの媒体では、画像だけから物語の内容を理解する必要があります。StoryDiffusionなどの最新の生成モデルは、視覚的に一貫性のあるシーン列を生成できるようになりましたが、視覚的な一貫性があることと、シーン間の意味的つながりが保持されることは別問題です。既存のベンチマークは視覚品質、内容の忠実性、シーンの一貫性を評価していますが、重要な失敗モード―シーンは視覚的に一貫しているのに、シーン間の意味的なリンクが失われるという現象―を見落としています。
本研究では、「セマンティック軌跡の崩壊」という概念を定義し、これを診断するための生成モデル非依存のプロトコルであるKathaTraceを提案しています。セマンティック軌跡の崩壊とは、あるシーンが次のシーンへとつながる理由を理解するために必要な遷移の意味が失われることです。KathaTraceは、テキストのみ、画像のみ、テキストと画像の組み合わせという3つの証拠条件下で遷移を評価し、曖昧な項目を除外します。
研究チームはKathaBench-25Kという新しいベンチマークを開発しました。これはイソップ物語、パンチャタントラ、カター・サリット・サーガラなどの古典コレクションから5000のナラティブ、20000の遷移、28712の回復可能性質問を含んでいます。セマンティック軌跡ギャップ(STG)は、テキストのみの回復可能性から画像のみの回復可能性を差し引いたもので、視覚化の過程で失われた遷移の意味を測定します。人間による検証ではFleiss' kappaが0.845と高い信頼性を示しました。最先端の生成器全体での実験では、平均23.5±1.3の実質的なSTGが観察されました。さらに、セマンティック・コンパスという実行可能性プローブは、KathaTraceの信号を使用して生成後の修復を行い、ストーリーボードの選別を改善します。