arXiv (AI)AI
効率的な小規模言語モデルのためのWiola アーキテクチャ
The Wiola Architecture for Efficient Small Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
研究者チームが、既存のGPT、LLaMA、Mistral、Falconといったモデルファミリーとは全く異なる系統から設計された、完全に独創的な小規模言語モデル(SLM)アーキテクチャ「Wiola」を発表しました。このアーキテクチャは、従来の言語モデルの設計思想に捉われない、5つの革新的なコンポーネントを搭載しています。
最初のコンポーネントは「Spiral Rotary Positional Encoding(SRPE)」で、トークンの位置情報を3次元のらせん状多様体上に埋め込むことで、絶対的、相対的、階層的な位置シグナルを統合します。次に「Gated Cross-Layer Attention(GCLA)」は、各デコーダ層に対して先行する2層の圧縮要約への軟クロスアテンション機能を提供し、層間の一貫性を向上させます。さらに「Adaptive Token Merging(ATM)」は、ネットワークの中間層において意味的に冗長な隣接トークンを動的にマージし、情報損失なく注意機構の複雑さを削減します。
第4のコンポーネント「Dual Stream Feed-Forward(DSFF)」は、従来のMLPを2つの並列ストリームに置き換え、学習可能な次元ごとのゲートで融合させます。そして「WiolaRMSNorm」は改良版の正規化手法で、次元ごとの学習可能なオフセットベクトルを導入し、表現の崩壊を防止します。開発チームは完全な数学的導出、アーキテクチャ図、複雑性分析、およびGPT-2、LLaMA-2、Mistralとの系統的な比較を提供しています。Wiolaは120M、360M、700M、1.5Bの4つのパラメータサイズで公開され、HuggingFace Transformersエコシステムと完全互換で、22の構成要素テストすべてに合格しています。