arXiv (CV)AI
TITLE_JA: 画像スタイル学習を単一のフォワードパスに圧縮する新手法「i2L」
Compressing Image Style Training into a Single Model Forward
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
拡散モデルを用いたスタイル転送は、推論効率とスタイル化の忠実度のバランスを取ることが課題となっています。従来のアダプタベースの手法は計算効率に優れていますが、スタイルを外部条件として注入するため、参照画像固有の外観を弱めるか、参照画像の意味内容を生成結果にコピーしてしまうという問題を抱えていました。一方、LoRAなどの最適化ベースのパーソナライゼーション手法はスタイルをより効果的に内在化できますが、新しいスタイルごとに個別の学習プロセスが必要になるという制約がありました。
今回発表された「i2L(image-to-LoRA)」は、このジレンマを解決する革新的なフレームワークです。i2Lの特徴は、スタイルLoRA学習を単一のフォワードパスに圧縮することで、参照画像からLoRA重みを予測し、スタイル固有の最適化を必要とせずに即座にスタイルを適用できる点にあります。アーキテクチャは画像エンコーダ、学習可能なLoRAクエリ、および適応行列を生成する圧縮デコーディングヘッドで構成されています。
意味的に多様なスタイルペアで学習することで、i2Lは外観の手がかりを保持しながら、参照画像の内容をコピーする傾向を抑制するよう設計されています。Z-Image、FLUX.2、Hidream-O1での実験結果は、i2Lが既存手法を上回るスタイル忠実度、プロンプト整合性、知覚品質を実現することを示しています。さらにi2Lは明示的なLoRA重みを生成するため、非対称分類器フリーガイダンス、複数参照スタイル融合、制御可能な生成モジュールとの合成なども可能になります。