arXiv (NLP)AI
エラー認識型TF-IDF検索拡張生成によるASR誤り補正
Error-Aware TF-IDF Retrieval-Augmented Generation for ASR Error Correction
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
音声認識(ASR)システムは、特に低リソース言語において、稀な固有表現やドメイン特有の用語を幻覚する傾向があります。このような音声認識の誤りに対処するため、大規模言語モデル(LLM)を活用した検索拡張生成(RAG)フレームワークが注目されています。しかし既存のアーキテクチャには重大な課題があります。標準的なスパース検索は音韻的な誤認識を無視し、一方で高機能なクロスモーダル埋め込みは推論レイテンシを大幅に増加させてしまうのです。
本研究が提案するのは、音韻的幻覚とループ幻覚を明示的に解決する、効率的でレキシカルベースのエラー認識型フレームワークです。このアプローチでは対称的なテキスト正規化モジュールと、革新的なエラー認識型TF-IDF(語句頻度-逆文書頻度)アルゴリズムを統合します。過去のエラーに基づいてスパース対角ペナルティ行列を構築することで、検索システムは高リスク誤認識を含む修正文書を数学的に優先順位付けできるようになります。
ペルシア語を含むFLEURSデータセットの評価では、エラー認識ヒット率が53.7%から90.9%へと大幅に向上しました。エンドツーエンド評価では、統合フレームワークが最終的な単語誤り率を23.06%から18.83%に削減し、ほぼゼロの推論レイテンシで顕著な精度向上を実現しています。この軽量かつ効率的なアプローチは、低リソース言語の音声認識システムの実用化を大きく前進させるものとなります。