arXiv (NLP)AI
TITLE_JA: DeepSeek-V4:100万トークンコンテキストに対応した高効率言語モデルの登場
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
中国のAI企業DeepSeekが新型言語モデルシリーズ「DeepSeek-V4」のプレビュー版を発表しました。このシリーズは2つの強力なMixture-of-Experts(MoE)モデルで構成されており、DeepSeek-V4-Proは1.6兆パラメータ(実際に稼働するのは490億パラメータ)、DeepSeek-V4-Flashは2,840億パラメータ(130億パラメータが稼働)という構成になっています。両モデルとも、従来の言語モデルでは課題だった100万トークンの超長コンテキスト対応を実現しています。
DeepSeek-V4シリーズは複数の技術的革新を導入しています。まず、圧縮スパースアテンション(CSA)と重度圧縮アテンション(HCA)を組み合わせたハイブリッドアテンション構造により、長いコンテキスト処理の効率を大幅に改善しました。さらに、従来の残差接続を強化する多様体制約ハイパー接続(mHC)技術と、収束を高速化し訓練安定性を向上させるMuonオプティマイザーを採用しています。
モデルの学習には32兆トークン以上の多様で高品質なテキストデータが使用され、その後、包括的な後学習パイプラインが適用されています。特に注目すべきは、DeepSeek-V4-Proの最高推論モード「DeepSeek-V4-Pro-Max」が、オープンソースモデルの新たなベンチマークを確立し、先代モデルを上回る性能を達成していることです。
効率性の面では、100万トークン処理時にDeepSeek-V4-Proは前世代のDeepSeek-V3.2と比べて、単一トークン推論の計算量を27%に削減し、KVキャッシュメモリを10%に圧縮しています。この革新的な効率化により、100万トークン規模のコンテキストを実用的に運用できるようになり、長期的なタスク処理やテスト時のスケーリングがより現実的になります。モデルはHugging Face上で公開されています。