arXiv (ML)AI
トランスフォーマーは3つの射影が本当に必要か?QKV変種の体系的研究
Do Transformers Need Three Projections? Systematic Study of QKV Variants
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
トランスフォーマーは現在、様々なAIタスクの標準的なソリューションとなっていますが、その中核をなすクエリ(Q)、キー(K)、バリュー(V)の3つの注意機構の射影について、各要素の個別の寄与度や省略時の影響はほとんど理解されていません。本研究は、これら3つの射影の必要性を体系的に検証するものです。研究チームは、キー・バリューを共有する(Q-K=V)、クエリ・キーを共有する(Q=K-V)、全て同一の単一射影(Q=K=V)の3つの制約パターンを評価しました。
実験は合成タスク、ビジョンタスク(MNIST、CIFAR、TinyImageNetの画像認識と異常検出)、言語モデリング(3億および12億パラメータモデルで10Bトークンを使用)にわたって実施されました。驚くべき結果として、これらの変種は標準的なQKVトランスフォーマーと同等かそれ以上の性能を発揮しました。特に言語モデリングでは、Q-K=V射影共有により、パープレキシティの低下が3.1%に抑えられながら、KVキャッシュを50%削減することに成功しました。
さらに重要なのは、射影共有がヘッド共有(GQA/MQA)と相補的に機能することです。Q-K=VとGQA-4を組み合わせるとキャッシュ削減は87.5%に達し、Q-K=VとMQAの組み合わせでは96.9%のキャッシュ削減が実現され、エッジデバイス上での実用的な推論が可能になります。研究は、Q-K=Vが有効である理由として、キーとバリューが類似した表現空間を占有でき、注意メカニズムが低ランク領域で動作することを示しています。一方、Q=K-Vは注意の方向性を破壊するため機能しません。本成果は、注意機構における重み共有の未開拓な可能性を示し、エッジ展開に特に有用なメモリ効率の向上をもたらします。