arXiv (ML)AI
TITLE_JA: ループ型言語モデルにおける密な教師信号だけでは不十分:読み出し層の盲点
Dense Supervision Is Not Enough: The Readout Blind Spot in Looped Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ループ型言語モデルは、隠れ状態を実行時の状態に変換し、各ステップで予測用に復号化された後、将来の計算にフィードバックされるというアーキテクチャを採用しています。このような設計では、基本的な問題が生じます。すなわち、クロスエントロピー損失が実際にどの状態変数を制御しているのかという問題です。本研究では、ループごとの密なクロスエントロピー損失が、読み出し層によって露出された変数のみを制御し、再帰的遷移で活動しているすべての変数を制御していないことを示しています。特に隠れ状態のスケールは、具体的な失敗モードをもたらします。
RMSNormやLayerNormといったスケール不変の読み出し層は、直接的なクロスエントロピー損失から放射方向スケールを隠します。一方、前正規化残差再帰はそのスケールを継続して保持・更新し続けます。その結果、ループごとの損失は早期終了を使用可能にできますが、再帰的スケールは制御されません。44Mおよび129Mパラメータのループ型トランスフォーマーを用いた実験では、RMSNorm読み出し層を通じたループごとのクロスエントロピーでも、最終的な隠れ状態ノルムが数千から数万に達することが確認されました。
この課題の解決には、スケール可視読み出し層と明示的なノルムペナルティが有効です。ノルムを数十程度に抑える必要があります。また、スケール除去再帰がアーキテクチャレベルの相互補完的な改善となります。設計原則は簡潔です。密な教師信号は早期終了の訓練に機能し、再帰的スケール制御には、スケールを損失関数に対して可視化するか、ループから除去するかのいずれかが必要というものです。この原則に従うスケール制御型の変種は、可変深度ベンチマークにおいて、同じ推論深度の運用条件下でより低いパープレキシティを達成しています。