arXiv (CV)AI
ビジョンタスク向けの改善された信念注意機構
Improved Belief-Attention in Vision Task
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
トランスフォーマーアーキテクチャの注意機構は、現代の深層学習モデルの核となる技術です。従来のこれらの機構を改善するため、最近提案された信念注意(Belief-Attention)は、ソフトマックスベースの重み付き和をベクトルV に対して直交射影することで、残差信号として垂直成分を利用するアプローチを取りました。このアプローチはすでに一定の性能向上をもたらしていますが、本研究ではその手法をさらに発展させています。
本研究の重要な発見は、直交射影によって得られた投影成分もまたトークン相関に関する情報を含んでおり、これまで無視されてきた情報が実は有用であるということです。従来のBelief-Attentionでは垂直成分のみに焦点を当てていましたが、研究者らは投影成分と垂直成分の両方を活用する拡張手法を提案しました。投影成分は活性化関数を通してから線形変換され、元のトークンと統合されます。この構造は、新しい注意ブロック内に組み込まれた2層のフィードフォワードネットワーク(FFN)として機能します。
さらに重要な改善点として、Belief2-Attentionと名付けられた新しいモジュールでは、標準的な注意機構が内積行列QK^Tを通じてトークン相関をキャプチャするのに対して、追加の内積行列ZZ^Tを導入することで、より豊富なトークン相関情報を捉えることができるようになりました。理論的には、Belief2-Attentionは標準的な注意機構よりも表現力が高いことが示されています。
研究者らは画像分類とセグメンテーションという実際のビジョンタスクにおいて、Belief2-Attentionの有効性を検証し、提案手法の実用的な価値を確認しました。この改善により、ビジョンモデルのパフォーマンス向上が期待されます。