arXiv (NLP)AI
TITLE_JA: SPARCLE:話者を考慮した対照学習によるグラフェム表現の音響アライメント手法
SPARCLE: SPeaker-aware Aligned Representations via Contrastive Language Embeddings
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
音声合成技術の進化に伴い、従来の音素表現から直接的なグラフェム(文字)モデリングへのシフトが進んでいます。音素はテキストと音響の間の一対多対応を解決する利点がある一方で、グラフェムから音素への変換システム(G2P)に依存しており、話者固有の音響変動を十分に捉えられないという課題がありました。先行研究では、グラフェムベースのモデルが規模を拡大する際に音素ベースのシステムを上回ることが示されていますが、低リソース環境ではその優位性が失われていました。
本論文で提案されるSPARCLEは、話者を考慮したグラフェム表現モデルであり、各文字を対応する正確な音響実現によって豊かにするものです。このモデルは対照学習の目的関数を用いて訓練され、話者アイデンティティを条件として、グラフェムに対応するWav2Vec2音響表現とアライメントさせます。結果として得られたモデルは、テキスト音声合成(TTS)タスクの下流処理におけるG2Pシステムの代替として機能します。
実験結果では、極度に限定されたリソース環境において、標準的なグラフェムベースのモデルと比較してSPARCLEが生成品質を向上させ、単語誤り率を半減させることが実証されました。この成果は、特に低リソース設定での音声合成技術の実用性を大きく改善する可能性を示唆しており、言語学的な前処理に頼らないより堅牢なシステムの構築に向けた重要な一歩となります。