arXiv (Neural Computing)AI
スパイキングおよびイベント駆動型ニューロモルフィックマンバモデルによる効率的な音声認識
Spiking and Event-driven Neuromorphic Mamba Models for Efficient Speech Recognition
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
深層学習の発展により自動音声認識(ASR)は大きく進化し、スマートフォンやスマートホームシステムなどのエッジデバイスでの広範な展開が実現しました。しかし、深いニューラルネットワークが要求する高い計算量とエネルギー消費は、リソースに制限のあるデバイス上での運用に大きな課題をもたらしており、レイテンシの増加と実時間インタラクション機能の制限につながっています。
こうした課題に対して、ニューロモルフィックコンピューティングが注目を集めています。スパイキングニューラルネットワーク(SNN)およびイベント駆動型ニューラルネットワークを導入することで、活性化スパース性を実現し、密な計算を疎な計算に変換することが可能になるのです。ただし、ASRの領域で異なるニューロモルフィック戦略がもたらすハードウェア上の利点を評価する研究は依然として不足しています。
本研究では、最先端のSpeechMambaモデルにおいて活性化スパース性を向上させるために、スパイキングおよびイベント駆動型ニューロモルフィックニューラルネットワークを探索しています。研究チームはFATReLU活性化を備えたイベント駆動型SpeechMambaを導入し、LibriSpeechデータセットで1%未満の精度低下に抑えながら60%を超える活性化スパース性を達成しました。さらに、同等のSNNと比較して30%少ないパラメータ数で70%以上のスパース性を実現するスパイキングSpeechMambaも提案しています。最後に、サイクル精度のイベント駆動型シミュレータを開発し、柔軟なアルゴリズム・ハードウェア協調探索を可能にすることで、計算のボトルネックを特定し、10%以上の追加効率改善をもたらすことに成功しました。