arXiv (ML)AI
WAV:深いデコーダー専用トランスフォーマー向けマルチ解像度ブロック残差ルーティング
WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
トランスフォーマーモデルの訓練において、残差接続は中心的な役割を担っています。従来のPreNorm残差ストリームでは、各部分層の更新が固定された単位重みで集約されてきました。これに対して最近のAttention Residualsでは、この固定的な集約をコンテンツに依存した深さ方向のルーティングに置き換えており、Block Attention Residualsはブロックレベルの残差サマリーによるルーティングで効率化を実現しています。しかし単一のブロックサマリーは、ブロック内の低周波の残差変位のみを保持し、注意機構とMLP間の不均衡や早期・後期ブロックの動態といった方向性構造を失ってしまいます。
本研究で提案するWAV v1は、デコーダー専用トランスフォーマー向けの軽量なマルチ解像度残差ルーティング手法です。各ブロックを累積残差和だけで表現するのではなく、WAV v1は全てのブロックに対して2つの方向性詳細基底を追加します。注意機構とMLPの更新を対比させるphase基底と、早期・後期の部分層更新を対比させるsplit基底です。これらの基底は標準的なブロックサマリーと共に、同じ深さ方向ソフトマックスミキサーを通じてルーティングされ、負の詳細ソース初期化と分離RMSマッチングにより訓練が安定化されます。
文字レベルのTinyStoriesおよびText8言語モデリングタスクにおいて、WAV v1は明確な深さ依存的な利点を示しました。12層では必ずしも有益ではありませんが、24層で競争力を持つようになり、48層ではすべてのベースラインを上回ります。48層においてWAV v1はBlock AttnResと比較して、TinyStoriesで検証損失を0.4960から0.4738に、Text8で0.9363から0.9305に削減し、追加パラメータはほぼ無視できるレベルです。これらの結果から、ブロックレベルの和だけでなく、方向性を持つ残差詳細が深いトランスフォーマーの残差ルーティング拡張において重要であることが示唆されています。