arXiv (CV)AI
TITLE_JA: 構造的改善によるGenAI画像編集のコンテンツシフトと幻覚現象の緩和
Mitigating Content Shift and Hallucination in GenAI Image Editing via Structural Refinement
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
生成型AI(GenAI)を用いた画像編集ツール、例えばNano Bananaなどは、テキストプロンプトだけで非専門家が高品質な画像レタッチを行える革新的なソリューションとして注目されています。しかし、これらのモデルの生成的な性質により、空間的なずれ、テクスチャの歪み、そしてコンテンツの幻覚現象が頻繁に発生し、ピクセルレベルの忠実性が求められるダウンストリームワークフローにおいて大きな課題となっていました。
本研究は、このような問題に対する新たなアプローチを提案しています。研究チームは「構造保存GenAI融合」と呼ぶ問題設定を提唱し、ブラックボックス型のGenAI画像レタッチにおいて、GenAI出力の知覚的な改善を保持しながら、元の入力画像への構造的忠実性を維持することを目標としています。
提案されたポストプロセッシングフレームワークは、入力画像とそのGenAI強化版を融合させる際、まず粗い空間的および測光的対応関係を確立し、その後、望ましい改善を転送しながら幻覚的なコンテンツを抑制する融合段階を実行します。光写実的なスタイル転送や画像融合の既存手法と比較した実験結果から、本手法は美的品質をより良く保持しながら、ピクセルレベルの構造的一貫性と入力解像度を維持できることが実証されました。