arXiv (Neural Computing)AI
病的音声評価モデルが音響特性から何を学んでいるのか:口腔・咽頭がん患者を対象とした事例研究
What Does a Pathological Speech Assessment Model Know about Acoustic Features? A Case Study on Oral and Oropharyngeal Cancer Patients
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
口腔がんと咽頭がんの患者の音声知能評価において、深層学習モデルがどのような音響情報を学習しているのかを理解することは、臨床診断の透明性向上に極めて重要である。本研究は、Wav2Vec 2.0ベースの音声知能評価モデルの解釈可能性を、正準相関分析を用いて詳細に調査している。このアプローチでは、モデルが生成する埋め込み表現と、eGeMAPS低レベル記述子(LLD)として知られる解釈可能な音響特性の参照値との相関を測定することで、各層がどのように音響情報をエンコードしているかを分析している。
分析は二つのレベルで実施された。個別レベルでは層ごとの各LLDを、グループレベルでは韻律的特性、スペクトル特性、音声品質という三つのカテゴリを対象に相関を算出した。結果として、モデルの学習表現はスペクトル特性と韻律的特性に最も強く相関しており、特に第一MFCCコエフィシエントがすべての層で最高の相関値を示した。グループレベルではスペクトル特性グループが0.77、韻律的グループが0.71の相関値を達成し、音声品質グループは0.65に留まった。
本研究はモデルの解釈可能性を解明するだけでなく、病的音声評価における音響特性選択の実践的指針も提供している。この知見は、がん患者の音声障害評価の精度向上と、臨床応用の実現に向けて重要な貢献をもたらすものである。