arXiv (NLP)AI
意味的埋め込みを用いた検索ベース推測デコーディングの高速化手法「SENSE」を提案
SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の推論を高速化する技術として注目されている推測デコーディング(SD)は、軽量なドラフトモデルが候補トークンを生成し、ターゲットモデルがそれを並列で検証することで、生成品質を損なわずに推論速度を向上させます。このアプローチの中でも検索ベースの推測デコーディング(RSD)は、プラグアンドプレイで様々なシステムに組み込める汎用性の高さから注目を集めていますが、従来の方法は表層的な語彙的依存性に依存しているため、表現の微妙な違いに対して脆弱という課題を抱えていました。
この課題を解決するため、新たな手法「SENSE(Semantic Embedding Navigation with Soft-gated Evaluation)」が提案されました。SENSEの革新的な点は、ターゲットモデルの隠れ状態(hidden states)に基づいて検索を行うことで、堅牢な意味的アライメントを確立することです。これにより、提案されたソフトゲート評価モジュールは、単なる表面形式ではなく意味的等価性を検証することが可能になります。
研究チームは既存の手法を統一フレームワーク内で原子的要素に分解し、厳密で詳細なコンポーネントレベルでの比較を実現しました。LLaMAおよびQwenモデルファミリーを用いた様々なドメインでの広範な実験により、SENSEは複数のベースラインを上回るパフォーマンスを実現し、平均受け入れ長(mean acceptance length)で4.09、推論速度で最大3.26倍の高速化を達成しながら、生成品質を保持することが示されました。