arXiv (NLP)AI
大規模音声言語モデルのための継続的音声思考フレームワーク
Continuous Audio Thinking for Large Audio Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模音声言語モデル(LALM)は、音声文字化から音楽分析に至るまで、多様な音声理解タスクで優れた性能を発揮しています。しかし、LALMは通常、テキスト整列応答を生成するように訓練されているため、その隠れ状態は段階的にテキスト生成に向けて形成され、音響情報の保存が後回しになってしまいます。結果として、音声が含む多様な音響内容、すなわち音韻的詳細、プロソディ、音声イベント、感情、ピッチといった情報が失われ、応答生成で活用することが困難になるのです。
今回研究者らが提案するContinuous Audio Thinking(CoAT)は、音声言語モデルに対して、応答生成前に音響情報を整理するための継続的な潜在ワークスペースを備えさせるフレームワークです。このアプローチは音声専門家モデルからの知識蒸留によって基礎付けられており、思考空間内でモデルが専門家蒸留から得られた豊富な音響情報を活用しながら応答を生成できるようになります。提案された継続的思考ブロックは単一の接頭辞処理で処理できるため、CoATはベースラインに対して追加の自動回帰デコーディングコストを必要としません。
Qwen2-Audio、Qwen2.5-Omni-7B、Audio Flamingo 3という3つのLALMにおいて、音声推論、音声理解、音楽分類、音声感情、音声文字化にわたる広範なベンチマークスイートでのパフォーマンス向上により、CoATの有効性が実証されています。さらなる分析により、補助的な監督が思考位置からモデルのテキスト応答へと伝播することが確認され、この手法の信頼性が高まっています。