arXiv (CV)AI
TITLE_JA: k最近傍法による畳み込みと注意機構の補間:統一的フレームワークの提案
Interpolation between Convolution and Attention via K-Nearest Neighbors
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
コンピュータビジョン分野で、畳み込みニューラルネットワーク(CNN)からトランスフォーマーへの転換は大きなパラダイムシフトをもたらしました。しかし、これら二つのアーキテクチャは根本的に異なるものとして認識されてきました。CNNは空間的に局所的な畳み込み演算によって定義され、一方トランスフォーマーはグローバルな自己注意(self-attention)メカニズムに依存しています。本研究は、外見上の相違にもかかわらず、畳み込みと自己注意の両者がk最近傍法による集約フレームワーク内で統一できるという重要な知見を提示します。
両者の本質的な関係は、近傍選択と重み付き集約という観点から理解できます。畳み込みは空間的近接性によって近傍を選択し、自己注意は特徴の類似性によって近傍を選択します。つまり、これら二つの演算は根本的に異なる計算ではなく、連続的なスペクトラム上に位置しているというのが本研究の主張です。
本研究では、この統一的な視点を形式化するConvolutional Nearest Neighbors(ConvNN)というフレームワークを導入しています。ConvNNは正規化された空間座標に近傍選択を制限することで標準的な畳み込みおよび深度方向畳み込みを完全に復元でき、一方で空間近接性をスケーリングされた内積相似度に置き換えることで、自己注意とKVT-attentionを含むその疎な変種を完全に復元します。
これらの特殊ケースを超えて、ConvNNは畳み込みと注意層の両方に対する汎用的な置き換え手段として機能します。設定可能な類似度関数、近傍選択戦略、位置符号化、および集約カーネルを通じて、局所的集約からグローバル集約までの中間領域を体系的に探索することが可能になります。