arXiv (ML)AI
階層的グローバルアテンション(HGA):長文脈トランスフォーマーの効率化を実現する新手法
Hierarchical Global Attention (HGA)
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
トランスフォーマーモデルの長文脈処理における計算効率とメモリ消費の課題に対して、階層的グローバルアテンション(HGA)という革新的な手法が提案されました。この技術は、既に学習済みの長文脈トランスフォーマーに対して、元のパラメータを変更することなくドロップイン置き換えとして機能するのが大きな特徴です。事前学習済みのWQ、WK、WV、WOの各投影層をそのまま保持し、キャリブレーションパラメータの導入や再学習が不要という利点があります。
HGAの核となるのは、階層的な二段階ルーティング機構です。まず第一段階として、RoPE(回転位置埋め込み)を意識したコンパクトな要約を用いて関連するチャンク(文の塊)を検索します。続く第二段階では、最も関連性の高いグループのみに絞り込んでからトークンレベルの正確なアテンションを実行します。この階層的検索プロセスにより、取得するトークン数を大幅に削減しながら、選別されたトークンセットに対する正確なアテンション計算を保証できるのです。
RTX 5090(32GB)単一GPUでQwen3-30B-A3B-Instruct-2507-FP8モデルを実行する場合、64Kトークンという長文脈に対応可能になります。従来のスパースアテンション手法と異なり、全トークンのK/VキャッシュはホストRAMまたはNVMe(ストレージ)に保存され、アテンション計算時には厳選されたルーティングされたワーキングセットのみがGPUメモリに転送されるため、GPU メモリ消費は総文脈長ではなく、モデルの重みとワーキングセットサイズに依存するようになります。
評価結果によると、4Kから64Kトークンの全テスト範囲において、わずか3%のスパーシティで約0.01~0.02 natsの誤差範囲内で密結合アテンションの性能を維持しています。これらの結果は、階層的ルーティングによる近似誤差が非常に小さく、残存する品質ギャップは長文脈位置エンコーディングに起因する可能性が高いことを示唆しています。