arXiv (ML)AI
モバイルNPUを活用した効率的なオンデバイス拡散型大規模言語モデル推論
Efficient On-Device Diffusion LLM Inference with Mobile NPU
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
スマートフォンなどのモバイルデバイスで大規模言語モデル(LLM)を実行することは、プライバシー保護とレイテンシ削減の観点から重要な課題となっています。特に拡散型大規模言語モデル(dLLM)は、複数のトークンを並列に生成することで処理速度を向上させるため、モバイル推論に適していると考えられています。しかし、反復的なデノイジングプロセスはスマートフォンに膨大な計算負荷をもたらすという課題があります。
モバイルニューラルプロセッシングユニット(NPU)は高スループットの密行列計算能力を備えていますが、その性能を効率的に引き出すことは困難です。トークンコミットメントによるワークロード縮小、トークン修正時のKVキャッシュ再利用の複雑性、そしてNPUの限定的なアドレス空間による高いデータ転送オーバーヘッドが主な障壁となっていました。
これらの課題に対応するため、研究チームはllada.cppという、dLLMをスマートフォンで加速させるための初のNPU対応推論フレームワークを提案しました。llada.cppは3つの革新的な技術を組み合わせています。まず、マルチブロック推論デコーディングは、現在のブロック処理後期の低下するワークロードを将来ブロックの推測トークンで補充します。次に、デュアルパス段階的修正は、コミットされたトークンを安定化まで修正可能に保ちながら、CPU側のパスで不安定なトークンを更新し、NPUの密集計算を停止させません。最後に、スワップ最適化メモリランタイムはNPU可視アドレスレイアウトをコンパクト化し、データステージングとNPU計算を重複させてオーバーヘッドを低減します。
評価結果によると、llada.cppはLLaDA-8Bの生成レイテンシをCPUベースラインと比較して17倍から42倍削減しながら、プリフィックスKVキャッシュ再利用により生成品質を維持することに成功しました。