arXiv (Neural Computing)AI

TITLE_JA: スパイキングニューラルネットワークのための適応的音声スパイク符号化

Adaptive Speech-to-Spike Encoding for Spiking Neural Networks

2026年6月18日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

音声処理における連続的なアナログ信号と、ニューロモルフィックハードウェアの離散的なイベント駆動処理の間に存在するギャップは、神経形態学的音声処理の根本的なボトルネックとなっています。従来のシステムでは固定的なスパイク符号化器に依存していため、下流のスパイキングニューラルネットワーク（SNN）が最適でない入力表現に対応する必要がありました。本研究では、学習可能な残差型の音声スパイク符号化器を開発し、これを再帰的リーク統合発火（R-LIF）バックボーンと共同で端から端まで学習させるアプローチを提案しています。Google Speech Commands v2（GSC-v2）ベンチマークで検証した結果、最大94.97％の精度を達成することに成功しました。特に注目すべき点は、学習された符号化器が極めてパラメータ効率に優れており、わずか35kパラメータのコンパクト版でも89.8％の精度に到達し、従来の手法よりも一桁多いパラメータを必要とするベースラインと同等かそれ以上の性能を実現していることです。符号化器に焦点を当てた分析では、線形プローブとグラディエント残差検査を含む詳細な調査から、符号化器は忠実な信号再構成を目指すのではなく、タスク特有のスパイク表現を学習し、クラス分離可能性を向上させていることが明らかになりました。さらに、生物学的にインスパイアされた直接フィードバック配置（DFA）と代理勾配法による逆伝播（BPTT）を、同一のアーキテクチャと訓練条件下で比較することで、生物学的に友好的なクレジット割り当ての性能を検証しています。その結果、DFAは91.5％の精度に到達し、現代的なニューロモルフィック音声処理における生物学的学習ルールの性能トレードオフを定量化しました。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

TITLE_JA: スパイキングニューラルネットワークのための適応的音声スパイク符号化

日本語要約青い用語にマウスを合わせると解説が表示されます