arXiv (CV)AI
LCG:スパース関係性注意機構を用いた長文脈一貫性画像生成
LCG: Long-Context Consistent Image Generation with Sparse Relational Attention
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
近年の画像生成モデルは単一画像の合成において優れた品質を実現していますが、漫画やストーリーボード、ビジュアルナレーティブなど、連続した出力全体にわたって一貫性を保つことには課題があります。このような問題に対応するため、研究者らは長文脈マルチ画像生成フレームワーク「Long-Context Generation(LCG)」を提案しました。LCGは、長文脈での一貫性向上とスケーラビリティの改善を目指しており、複数の画像にわたって統一された表現を生成することを可能にします。
LCGの核となるのが、スパース関係性注意(SRA)メカニズムです。SRAは拡張されたビジュアルコンテキスト全体に渡って、中核となる特徴に選別的に注意を向けることで、意味的および配置情報の伝播を計算上実行可能な範囲に保ちます。さらに意味的整合性を強化するため、ID認識マスクを活用した「Routing Consistency Constraint(RCC)」を導入しました。RCCは複数の生成ブランチにわたって構造パターンを整列させ、複雑なマルチキャラクターシーンにおいても外観のドリフトを効果的に軽減します。
研究の実施を支援するため、研究チームは大規模な合成データセット「Long-Context Consistency Dataset(LCCD)」を構築しました。LCCDはキャラクター中心のマルチ画像シーケンスを特徴とし、様々な状況文脈にわたる600K個のトレーニングシーケンスと1Kのテストセットで構成されています。各シーケンスは6〜20枚の画像を含んでいます。実験結果は、LCGがプロンプト整合性とキャラクター一貫性の両面で既存手法を上回り、マルチキャラクターシーンを含む長文脈画像生成において優れた性能を発揮することを示しています。