arXiv (Neural Computing)AI
TITLE_JA: スパイキングニューラルネットワークのための適応的音声スパイク符号化
Adaptive Speech-to-Spike Encoding for Spiking Neural Networks
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
音声処理における連続的なアナログ信号と、ニューロモルフィックハードウェアの離散的なイベント駆動処理の間に存在するギャップは、神経形態学的音声処理の根本的なボトルネックとなっています。従来のシステムでは固定的なスパイク符号化器に依存していため、下流のスパイキングニューラルネットワーク(SNN)が最適でない入力表現に対応する必要がありました。
本研究では、学習可能な残差型の音声スパイク符号化器を開発し、これを再帰的リーク統合発火(R-LIF)バックボーンと共同で端から端まで学習させるアプローチを提案しています。Google Speech Commands v2(GSC-v2)ベンチマークで検証した結果、最大94.97%の精度を達成することに成功しました。特に注目すべき点は、学習された符号化器が極めてパラメータ効率に優れており、わずか35kパラメータのコンパクト版でも89.8%の精度に到達し、従来の手法よりも一桁多いパラメータを必要とするベースラインと同等かそれ以上の性能を実現していることです。
符号化器に焦点を当てた分析では、線形プローブとグラディエント残差検査を含む詳細な調査から、符号化器は忠実な信号再構成を目指すのではなく、タスク特有のスパイク表現を学習し、クラス分離可能性を向上させていることが明らかになりました。さらに、生物学的にインスパイアされた直接フィードバック配置(DFA)と代理勾配法による逆伝播(BPTT)を、同一のアーキテクチャと訓練条件下で比較することで、生物学的に友好的なクレジット割り当ての性能を検証しています。その結果、DFAは91.5%の精度に到達し、現代的なニューロモルフィック音声処理における生物学的学習ルールの性能トレードオフを定量化しました。