arXiv (ML)AI
TITLE_JA: モデルは前処理時にメモを取る:KVキャッシュは編集可能で合成可能
Models Take Notes at Prefill: KV Cache Can Be Editable and Composable
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデルの推論効率を大幅に向上させる新しい手法が提案されました。従来のプリフィックスキャッシング技術は、完全に同じプリフィックスを共有する場合にのみキャッシュを再利用できるため、1つのフィールドが変更されると下流のキャッシュ全体が無効になるという課題がありました。この論文では、KVキャッシュを編集可能かつ合成可能な「メモ帳」として機能させる革新的なアプローチを提案しています。
研究チームが4つのモデルファミリーを使用した因果分析を通じて明らかにしたのは、前処理段階でモデルが既にフィールドに条件付けされた結論を下流のメモに書き込んでおり、そのフィールド自身のキー・バリュー・ベクトルが意思決定に寄与する割合は1%未満だということです。この知見に基づき、2つの重要な機能が実現されました。第1に、メモは編集可能です。誤りを見つけた場合、フィールドを単独で編集することで、チェーン・オブ・ソート(CoT)を使用すれば完全な精度(8Bモデルで1.00)を維持しながら、計算量を約1%に削減できます。
第2に、メモは合成可能です。これらのメモは位置に関わらず移植可能であり、事前コンパイルされたスキルをRoPE(回転位置埋め込み)で再配置して任意のコンテキストに挿入できます。この方法は完全な再計算と区別がつかない品質(ロジットコサイン0.90~0.999)を保ちながら、トークンまでの時間を O(L²) から O(L) に削減します。統合された編集・合成エージェントは、最大14.9倍低いレイテンシーで再計算と同じ決定を維持します。この手法はスケール、量子化、Mixture-of-Experts、マルチモーダルキャッシュなど広範に適用でき、オンラインvLLMベンチマークでは、プリフィックスキャッシュのヒット率を98.5%に保ちながら、p90時間を53~398倍削減するという顕著な成果が報告されています。