arXiv (NLP)AI
TITLE_JA: 深い層の値ベクトルは残差ストリームからのコンテキストを必要とするか?
Do Value Vectors in Deep Layers Need Context from the Residual Stream?
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
トランスフォーマーアーキテクチャの成功の大部分は、アテンション層の活用に由来しています。従来のアテンション層は残差ストリームを入力として受け取り、コンテキスト依存的なクエリ、キー、値ベクトルを生成しています。しかし、深い層においてモデルがコンテキストに依存しない値ベクトルのみを学習し、残差ストリームから一切コンテキスト情報を引き出さずにトークンの元の情報を保存する場合、モデルのパフォーマンスが有意に向上することが明らかになりました。
このコンテキスト非依存の値ベクトルにアクセス可能な場合、コンテキスト依存成分を追加しても集約的なベンチマークパフォーマンスに対する追加的な利益はほとんど得られません。このようなコンテキスト非依存の値ベクトルは疎なモデルパラメータとして保存でき、これらの値の再計算やキャッシュの永続的な保持が不要になります。
研究チームは、コンテキスト非依存値ベクトルの主要な設計選択肢に対して体系的なアブレーション研究を実施し、Bank of Values(BoV)と呼ばれる新しい手法を提案しました。BovVは、モデルの最後の3分の1の層に対して、トークン固有の値ベクトルのルックアップテーブルを学習することで、アテンションにおける値ベクトル計算を実現します。
135Mおよび780Mサイズのモデルにおいて、BovVは標準的なアテンション層と比較して検証損失を改善し、780Mモデルでは21のベンチマークの平均スコアを向上させました。これは値ベクトルにトークン情報を追加する従来の最良手法と同等の性能を、より少ない計算量とメモリで実現するものです。