arXiv (ML)AI
TITLE_JA: なぜ少ステップのテキスト潜在表現は失敗するのに画像潜在表現は成功するのか?——シャープなカテゴリカル出力での非コミットメント問題
Why Do Few-Step Text Latents Fail When Image Latents Work? Non-Commitment at Sharp Categorical Readouts
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
決定論的な少ステップ生成は連続的な画像潜在表現では成功するにもかかわらず、連続的なテキスト潜在表現では一貫性を欠いた出力に陥ります。本研究は、この失敗の原因が訓練不足やスケーリングの問題ではなく、幾何学的な性質にあることを示しています。滑らかで規則性が制限された決定論的写像は、シャープなカテゴリカル出力の前に離散的な分岐選択を解決できないというのが根本的な問題です。つまり、少ステップの失敗は輸送精度ではなく、デコーダーのシャープネスに支配されているということです。
実際のテキストオートエンコーダの重なり領域において、研究者らは定理3により、後験平均の最終ステップがトークンをめくる速度が、決定境界の周りのO(s(t))チューブ内の潜在質量の速度に等しいことを証明しました。DABIという読み出しシャープネスの指標とCCIというカテゴリカルコミットメント指標を用いて、公開されたチェックポイント上で測定したところ、4つの独立に構築された連続テキストデコーダーは境界配列の摂動を、ノルム整合等方性摂動と比較して大きく増幅し(DABIが5×10²から10⁵を超える)、一方で画像デコーダーではDABIがおよそ1です。
理想化された分離領域では、マッチする鋭い輸送則が証明されており、次元位相図も含まれています。M個のモードを分離するために必要な決定論的なスティフネスは、潜在次元がΩ(log M)以上の場合、Θ(√log M)として増加し、固定次元ではM^(1/n)として増加します。深さBの階層構造は、ステップあたりのピークを√B倍小さくします。結果として、精度・深さ・スティフネスのトレードオフが生じ、決定論的連続クラス内ではコストが削減不可能であり、両者の逃げ道はこのクラスの外に出ることになります。