arXiv (NLP)AI

TITLE_JA: DeepSeek-V4：100万トークンコンテキストに対応した高効率言語モデルの登場

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

2026年6月19日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

中国のAI企業DeepSeekが新型言語モデルシリーズ「DeepSeek-V4」のプレビュー版を発表しました。このシリーズは2つの強力なMixture-of-Experts（MoE）モデルで構成されており、DeepSeek-V4-Proは1.6兆パラメータ（実際に稼働するのは490億パラメータ）、DeepSeek-V4-Flashは2,840億パラメータ（130億パラメータが稼働）という構成になっています。両モデルとも、従来の言語モデルでは課題だった100万トークンの超長コンテキスト対応を実現しています。 DeepSeek-V4シリーズは複数の技術的革新を導入しています。まず、圧縮スパースアテンション（CSA）と重度圧縮アテンション（HCA）を組み合わせたハイブリッドアテンション構造により、長いコンテキスト処理の効率を大幅に改善しました。さらに、従来の残差接続を強化する多様体制約ハイパー接続（mHC）技術と、収束を高速化し訓練安定性を向上させるMuonオプティマイザーを採用しています。モデルの学習には32兆トークン以上の多様で高品質なテキストデータが使用され、その後、包括的な後学習パイプラインが適用されています。特に注目すべきは、DeepSeek-V4-Proの最高推論モード「DeepSeek-V4-Pro-Max」が、オープンソースモデルの新たなベンチマークを確立し、先代モデルを上回る性能を達成していることです。効率性の面では、100万トークン処理時にDeepSeek-V4-Proは前世代のDeepSeek-V3.2と比べて、単一トークン推論の計算量を27%に削減し、KVキャッシュメモリを10%に圧縮しています。この革新的な効率化により、100万トークン規模のコンテキストを実用的に運用できるようになり、長期的なタスク処理やテスト時のスケーリングがより現実的になります。モデルはHugging Face上で公開されています。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

TITLE_JA: DeepSeek-V4：100万トークンコンテキストに対応した高効率言語モデルの登場

日本語要約青い用語にマウスを合わせると解説が表示されます