arXiv (ML)AI

モバイルNPUを活用した効率的なオンデバイス拡散型大規模言語モデル推論

Efficient On-Device Diffusion LLM Inference with Mobile NPU

2026年6月15日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

スマートフォンなどのモバイルデバイスで大規模言語モデル（LLM）を実行することは、プライバシー保護とレイテンシ削減の観点から重要な課題となっています。特に拡散型大規模言語モデル（dLLM）は、複数のトークンを並列に生成することで処理速度を向上させるため、モバイル推論に適していると考えられています。しかし、反復的なデノイジングプロセスはスマートフォンに膨大な計算負荷をもたらすという課題があります。モバイルニューラルプロセッシングユニット（NPU）は高スループットの密行列計算能力を備えていますが、その性能を効率的に引き出すことは困難です。トークンコミットメントによるワークロード縮小、トークン修正時のKVキャッシュ再利用の複雑性、そしてNPUの限定的なアドレス空間による高いデータ転送オーバーヘッドが主な障壁となっていました。これらの課題に対応するため、研究チームはllada.cppという、dLLMをスマートフォンで加速させるための初のNPU対応推論フレームワークを提案しました。llada.cppは3つの革新的な技術を組み合わせています。まず、マルチブロック推論デコーディングは、現在のブロック処理後期の低下するワークロードを将来ブロックの推測トークンで補充します。次に、デュアルパス段階的修正は、コミットされたトークンを安定化まで修正可能に保ちながら、CPU側のパスで不安定なトークンを更新し、NPUの密集計算を停止させません。最後に、スワップ最適化メモリランタイムはNPU可視アドレスレイアウトをコンパクト化し、データステージングとNPU計算を重複させてオーバーヘッドを低減します。評価結果によると、llada.cppはLLaDA-8Bの生成レイテンシをCPUベースラインと比較して17倍から42倍削減しながら、プリフィックスKVキャッシュ再利用により生成品質を維持することに成功しました。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

モバイルNPUを活用した効率的なオンデバイス拡散型大規模言語モデル推論

日本語要約青い用語にマウスを合わせると解説が表示されます