arXiv (NLP)AI
グラフベースの音声認識誤り補正:音韻類似性を活用した構造化アプローチ
Graph-Based Phonetic Error Correction of Noisy ASR
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自動音声認識(ASR)システムは全体的に低い単語誤り率を実現していますが、固有表現や否定表現、感情を表す語など意味的に重要なトークンに不釣り合いに影響を与える残存的な語彙誤りを生み出しています。これらの誤りはランダムノイズではなく、音韻の類似性に由来する構造化されたものであるため、単純なトークンレベルの補正では対応不十分です。
今回発表された研究では、G-SPINと名付けられた構造化ASR補正フレームワークが提案されています。このフレームワークは音韻グラフモデリングと文脈的言語理解を組み合わせた革新的なアプローチです。グラフニューラルネットワーク(GNN)が最初に、フラグ付けされたトークンについて音響的に妥当な候補近傍を構築し、補正探索空間を音韻的な代替案に明示的に制限します。その後、マスク言語モデル(MLM)が局所的な文脈スコアリングを提供し、命令調整された大規模言語モデル(LLM)がこのコンパクト候補セット上で最終的な文脈認識再ランキングを実行します。
このアプローチの特徴は、構造化された音韻推論を文脈的意味選択から分離することで、制約のない生成を回避しながら補正精度を向上させることです。フレームワークは軽量でモジュール式であり、推論時に完全に動作するため、実運用での導入が容易です。この技術は、音声インターフェースを持つ応用システムにおいて、特に固有名詞や重要な語彙の正確な認識が求められる場面で大きな価値を持つと期待されています。