arXiv (ML)AI
BitsMoE:MoE大規模言語モデルの量子化における効率的なスペクトルエネルギーガイド型ビット割り当て
BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
Mixture-of-Experts(MoE)に基づく大規模言語モデル(LLM)は、スパースな専門家活性化を通じてトークンごとの計算量を削減する革新的なアーキテクチャです。しかし実運用では、すべての専門家の重みをメモリに常駐させる必要があるため、メモリ使用量が大きな課題となっています。従来のMoE圧縮手法は、超低ビット量子化の領域で課題を抱えていました。剪定は不可逆的にモデル容量を失わせ、一方で粗粒度の量子化は異質な専門家および重みの方向性の重要度に応じたビット割り当てに失敗していました。
この問題を解決するため、研究者らはBitsMoEを提案しました。これはMoE LLM量子化のためのスペクトルエネルギーガイド型ビット割り当てフレームワークです。BitsMoEは特異値分解(SVD)を用いてMoEの各層を共有基盤と専門家固有のスペクトル因子に分解し、共有基盤は量子化せずに保持することで専門家間の共通構造を維持します。一方、専門家固有の因子を細粒度の量子化単位として活用します。
各ユニットのビット幅を決定するため、BitsMoEはスペクトル単位の混合精度量子化を活性化認識の再構成代理として定式化し、固定ビット予算の下で推定再構成損失を最小化する整数線形計画問題を解きます。複数のMoE LLMを用いた実験では、BitsMoEが超低ビット領域で下流タスクの精度低下を大幅に削減することが確認されました。Qwen3-30B-A3B-Baseに対する2ビット量子化では、BitsMoEはGPTQと比較して量子化速度を12.3倍に加速し、平均精度を27.83ポイント向上させ、デコード速度を1.76倍高速化しています。