arXiv (AI)AI

効率的な小規模言語モデルのためのWiola アーキテクチャ

The Wiola Architecture for Efficient Small Language Models

2026年7月3日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

研究者チームが、既存のGPT、LLaMA、Mistral、Falconといったモデルファミリーとは全く異なる系統から設計された、完全に独創的な小規模言語モデル（SLM）アーキテクチャ「Wiola」を発表しました。このアーキテクチャは、従来の言語モデルの設計思想に捉われない、5つの革新的なコンポーネントを搭載しています。最初のコンポーネントは「Spiral Rotary Positional Encoding（SRPE）」で、トークンの位置情報を3次元のらせん状多様体上に埋め込むことで、絶対的、相対的、階層的な位置シグナルを統合します。次に「Gated Cross-Layer Attention（GCLA）」は、各デコーダ層に対して先行する2層の圧縮要約への軟クロスアテンション機能を提供し、層間の一貫性を向上させます。さらに「Adaptive Token Merging（ATM）」は、ネットワークの中間層において意味的に冗長な隣接トークンを動的にマージし、情報損失なく注意機構の複雑さを削減します。第4のコンポーネント「Dual Stream Feed-Forward（DSFF）」は、従来のMLPを2つの並列ストリームに置き換え、学習可能な次元ごとのゲートで融合させます。そして「WiolaRMSNorm」は改良版の正規化手法で、次元ごとの学習可能なオフセットベクトルを導入し、表現の崩壊を防止します。開発チームは完全な数学的導出、アーキテクチャ図、複雑性分析、およびGPT-2、LLaMA-2、Mistralとの系統的な比較を提供しています。Wiolaは120M、360M、700M、1.5Bの4つのパラメータサイズで公開され、HuggingFace Transformersエコシステムと完全互換で、22の構成要素テストすべてに合格しています。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

効率的な小規模言語モデルのためのWiola アーキテクチャ

日本語要約青い用語にマウスを合わせると解説が表示されます