arXiv (ML)AI
TITLE_JA: ソーシャル・セマンティック・ギャップの解消:クラウドLLM推論のエッジベース・プロンプト圧縮技術SPSD
Closing the Social-Semantic Gap: SPSD for Edge-Based Prompt Compression in Cloud LLM Inference
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の推論におけるプリフィルステージは、クラウド規模のエネルギーコスト増加の重要な要因となっています。カスタマーサポートや会話型のプロンプトには、丁寧さを示すマーカーや謝罪の前置き、繰り返し、ラポール構築言語といった社会的スキャフォルディングが含まれることが多く、これらは人間のコミュニケーションには重要ですが、機械推論にとっての限界情報価値は低いという課題があります。この不一致を「ソーシャル・セマンティック・ギャップ」と呼びます。
研究チームは、この課題に対処するためにSPSD(Sentiment Preserving Semantic Distillation)を開発しました。これはエッジベースのパイプラインで、ユーザープロンプトを4ビット量子化されたSmall Language Model(Gemma-2-2B-Instruct)を使用して圧縮してからクラウドデプロイされたLLM(Llama-3.1-8B-Instruct)に送信します。248プロンプトのコーパスを用いた評価では、平均99.9トークンの入力削減を達成し、146の圧縮呼び出しすべてがプラスの節約をもたらしました。
応答品質はLLMを判定者とするブラインド評価で、15ポイント規準において1ポイント以内の非劣性マージン内で生のパスと同等であることが確認されました。判定者は43パーセントの同点、28パーセントの圧縮版勝利、29パーセントの生版勝利を記録しています。コサイン類似度は平均0.682、中央値0.712で、ペアの54.1パーセントが0.70の参照閾値を上回りました。
安全性が重要な領域はルールベースのゲートを介してパススルーにルーティングされます。単一呼び出しあたりの純エネルギー削減は、与えられた仮定の下で70~270 uWhと推定されており、SPSDはオンデバイス・プロンプト蒸留がクラウドLLMの入力トークンコストを削減しながら実用的な非劣性マージン内で応答品質を保つことができることを示しています。