arXiv (ML)AI
TITLE_JA: ガウス混合注意メカニズム:確率的潜在ルーティングによる線形時間系列混合
Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
Transformer アーキテクチャのスケーリングにおいて、標準的なドット積注意による密なトークン間相互作用パターンがボトルネックとなっている問題に対し、研究者らは「ガウス混合注意(GMA)」と呼ばれる革新的な手法を提案しました。この手法は、従来の明示的なクエリ・キー比較を、K 個の学習されたガウス混合成分を通じたルーティングに置き換えるものです。
GMA の仕組みは、クエリとキーを共有潜在ルーティング空間上の責任ベクトルにマッピングし、これらの重複が暗黙的な責任空間アフィニティを定義するというものです。値は K スロット潜在メモリに書き込まれ、読み出されます。重要な点として、行列乗算の結合性を活用することで、従来発生していた N×N アフィニティ行列の明示的な計算を回避でき、メモリ消費を O(N²) から O(NK) に削減できます。
研究では、GMA の双方向・因果的バリアント、ガウス混合成分の微分可能なパラメータ化、責任調整勾配構造、および非負低ランクアフィニティ解釈が提供されています。実験結果では、GMA が意図通り固定 K の線形メモリスケーリングを示し、長文脈分類で注意ベースラインと競争力のある性能を発揮しています。一方、WikiText-103 では線形・ランダム特徴注意変種より優れるものの、最適化された SDPA や Mamba には現在の実装では及びません。
学習された責任の分析から、広範なコンポーネント使用と表面形式トークンカテゴリとの中程度の整合性が確認され、GMA は確率的で解釈可能な線形時間注意様オプションとして機能することが示されました。ただし、最適化されたソフトマックス注意または状態空間モデルの万能な置き換えとしてではなく、特定用途での代替手段として位置づけられています。