DeepSeek V4 憋了一年半终于端出来，这一次改的是给昇腾跑的底座

发表于 2026-04-24 更新于 2026-07-13 分类于 AI 阅读次数：本文字数： 4.2k 阅读时长 ≈ 4 分钟

分析 DeepSeek V4 预览版的国产化主线，V4-Pro 总参数 1.6T、上下文 1M、输出 24 元每百万 token 涨价 8 倍仍比海外便宜约 60%，通过 MXFP4 低精度格式、北大 TileLang 算子语言和已在昇腾跑通的 MegaMoE 内核，把能跑在昇腾上作为架构约束条件。

cover

大家好，我是飞飞。

今天下午 2 点多，我手机又响了。

这周第四条 AI 大新闻。周一那天 GitHub 把 Copilot 停了注册、Anthropic 把 Claude Code 从 Pro 里拿走；周四我写了 /ultraview 实测；今天凌晨 GPT-5.5 发布；下午 DeepSeek V4 落地。

我今天上午那篇 GPT-5.5 的文章结尾留了一个问题，说 OpenAI 的 API 什么时候开才是该盯的事。不到半天时间，DeepSeek V4 把 API 直接开了。

跑分我晚点再说。让我今天想停下来单独写一篇的，是发布稿里那几行关于底层技术栈的话。V4-Pro 能不能跟 Opus 4.7 打五五开这种问题其实没那么重要。

如果我没读错，这次 V4 真正的主线是一件事：把模型改成了能跑在昇腾上的样子。

先把今天这次发布的关键数字列出来

4 月 24 日上午，DeepSeek 在官方公众号放出了 V4 预览版，两个尺寸：

V4-Pro：总参数 1.6T（1.6 万亿），对比 V3.2 的 671B 翻了将近 2.5 倍。输入 ¥12/百万 token，输出 ¥24/百万 token，换算成美元是 $1.74/$3.48。
V4-Flash：参数更小、激活更小，输入 ¥1、输出 ¥2/百万 token，约 $0.14/$0.28。
上下文：两个版本都标配 1M（百万）token。官网默认就是 V4，点开就能聊。
架构：混合模型。思考和非思考合一，通过 reasoning_effort=high/max 控制。R2 这次没出，官方的意思是在这套混合架构里它的意义已经不明确。
定价提示：官方在定价页加了一行小字，说 Pro 的价格受限于高端算力是暂时的，等下半年昇腾 950 超节点上市后会大幅下调。

API 侧的兼容做得很直接，同时支持 OpenAI ChatCompletions 接口和 Anthropic 接口。

老的 deepseek-chat 和 deepseek-reasoner 两个别名三个月后（2026-07-24）停用，现在先指向 V4-Flash 的非思考模式和思考模式。

跑分我放一个数字就行：V4-Pro 在 LMArena 代码榜目前排第三，第一是 GLM-5.1。

官方坦诚和最前沿闭源旗舰的能力差距还有 3 到 6 个月。

这些加起来没有爆炸感。接下来的三节才是我今天反复读了几遍的部分。

涨价 8 倍还是便宜，但比便宜更重要的是官方为什么涨

DeepSeek 历史上最出名的标签是”价格屠夫”。V3.2 输出是 ¥3/百万 token，今天 V4-Pro 涨到 ¥24，差不多 8 倍。

但放到全世界看，Opus 4.7 是 $5/$25，GPT-5.5 昨天刚宣布的是 $5/$30。V4-Pro 的输出价折合 $3.48，依然比两家海外头部便宜 60% 左右。

“涨 8 倍还是便宜”这事本身不是新闻。我在意的是官方给涨价配的那段解释。

官方原话的关键点有两个：一个是参数翻了 2.5 倍、Agent 消耗的 token 量又在暴增，算力账确实撑不住了；另一个是说”高端算力供给有限”，等昇腾 950 批量之后会往下调。

第二点才是全文最有信号的一句。

它的潜台词其实是：V4-Pro 现在 ¥24 这个价定的是限流，不是真实成本。

当下卡不够用，DeepSeek 只能用价格把需求往回压一点。等昇腾到货，这个数会重算。

这个逻辑和昨天我写 GPT-5.5 时 Sam Altman 那句”token 效率更高，所以单价涨了账单不一定贵”完全是同一个剧本的两个版本。

一家在分子上动手（把单价抬高），一家在分母上动手（把国产算力补齐）。

两家今天都在说同一件事：2026 年这一代 AI 编程扁平月费的账算不动了。

为昇腾改的模型长什么样

这一段是我今天多花了半小时反复读的部分。

先说最容易被忽略的一个词：MXFP4。

V4 训练还是在英伟达 FP8 上做的，但把后训练和推理换成了 MXFP4 这种开放低精度格式。

这个动作等价于把自己从 NVIDIA 的 FP8 生态里解绑了一半，因为 MXFP4 是华为昇腾、寒武纪、壁仞这些国产卡能原生支持的格式。

推理不绑 CUDA 生态，是适配国产卡的前提。

再看底层算子这一层。V4 不再完全依赖 CUDA，用的是 TileLang 这个 DSL。

TileLang 是北大去年开源的瓦片式张量语言，写出来的算子能编译到不同硬件上。

DeepSeek 把 TileLang 塞进 V4 的核心算子里，等于把”硬件可迁移”这件事做进了架构本身。

最后是 MegaMoE 这个融合内核。它是为了减少专家并行里的通信等待设计的。

官方明写了：目前已经在华为昇腾上跑通。这是三件事里最直接的一个国产卡信号。

三个点放一起再看就清楚了。

V4 的架构设计本身就是以”能在昇腾上跑起来”为约束条件的，不是架构先做完再补一层适配层。

V4 为国产卡改的三层底座

这条路径和当年 Meta 给自家 TPU 写 JAX 不是一回事。DeepSeek 不造卡，它是在替国产芯片厂商把上层生态先铺出来。

等昇腾 950 真到货那天，至少不用再从零造上层栈。

Fine-grained EP 这个工程优化也顺便公布了，英伟达和华为的卡上都测过，推理速度提升 1.50 到 1.73 倍。

这块属于锦上添花，但对上游算力账很有意义。

我把它接到 Claude Code 里试了一下中文写作

今天下午看到卡兹克已经把 V4-Pro 接到他的 Claude Code 里测过 3 个小时，他的结论很直接：Agent coding 场景下还有适配问题，skill 调用不自然，CLAUDE.md 约束有些不生效。

我自己在 DeepSeek 官网开了一个会话，没挂 Claude Code，用一个我已经跑了一个月的中文博客写作 prompt，让它把今早 GPT-5.5 那篇文章的一个小节重写成”冷科技”风格。

几个我关心的点：

写作感觉：这是今天我最意外的一块。V4 写中文是目前我用过的开源模型里最少”翻译腔”的。

“这玩意儿”、”涨 8 倍还是便宜”这种口语化表达它是敢用的，不像 Qwen 或 MiniMax 那种开口就是”让我们来一起探讨”。

上下文：我贴了一个 8000 字的上下文进去，它没压缩、没遗漏。这次 1M 上下文确实不是宣传数字。
审美：中文审美过关，用词不生硬，节奏控制合理。这块卡兹克的结论也一致：直出修改度大概 45%（Opus 4.6 是 30%，Opus 4.7 是 60%）。

但限制也很清楚：

没多模态。不能读图，不能处理截图。这周 Opus 4.7 最大的升级就是多模态，GPT-5.5 也早就是多模态了。V4 在这块落后了一整代。
Agent 场景下工具调用不稳。卡兹克实测里那个没遵守 CLAUDE.md 里域名确认约束的 case，我在我的 skill 里也看到了类似的征兆。不如 GLM-5.1 和 MiMo-V2.5-Pro 贴合 Claude Code。

所以我对它的定位有数了：内容创作可以用，Agent coding 别用。

对一个 Claude Max 5x 用户这周的决策

这周我已经把决策改了两次。

周一 Pro 的 Claude Code 砍掉那一轮，我判断自己 $100/月的 Max 5x 短期不动；昨天 GPT-5.5 出来，我判断两周里不切 Codex、但把 10 个高频 prompt 跑一遍对照；今天 V4 出来，我的判断是这样的：

写中文博客、写公众号、写小红书这类场景，我会把主力从 Claude 切到 DeepSeek V4 官网。

开源模型里写中文这块，V4 是目前最顺手的一个。官网免费。

写代码这条线不动。Claude Code + Sonnet 4.6 的组合我已经摸了一个月，V4 在 Agent 场景的工具调用稳定性不够，切过去的成本高于收益。

API 走量这块我会观察。现在 Pro 涨到 ¥24/百万 token 的输出，和 Opus 4.7 的 $25 只差不到 60%。

等下半年昇腾 950 真把 Pro 价格打下来，这块我会重新测。

坦白说，V4 这次没有让我做出”现在就切 Claude Max”的决定。

但它打破了一件事：开源模型第一次在”写中文写得像中文”这个点上全面过线。这在去年都是不可想象的。

百万上下文普惠化这件事值得单独记一笔

V4 官方那句”1M 上下文成为所有服务标配”我想单独拎出来说一下。

今天开始，不管你是在官网免费聊天，还是调 V4-Flash 的 API（¥2/百万 token 输出），你都能拿到 1M 上下文。

对比海外模型，GPT-5.5 Plus 订阅里是 400K，Opus 4.7 API 是 200K，Gemini 3.1 Pro 是 1M 但 API 不便宜。

这意味着长文档处理、整本书分析、跨文件代码审查这些场景，第一次有了一个定价上打得过大多数人的选项。

KV Cache 压到原来 1/10、计算量压到 1/4，这两个数字就是让百万上下文能普惠化的根本原因。

V4 在架构上用了 Hybrid Attention（把压缩稀疏和重度压缩稀疏两种注意力结合起来）和 DSA 稀疏注意力两招，效果确实做出来了。

这块我觉得过半年再看，可能才是 V4 真正的长尾价值。比 Agent coding 的指标重要，比对标 Opus 的跑分重要。

百万上下文从奢侈品变成基础设施这件事，改的是整个开发者的工作方式。

昇腾 950 下半年的产能才是这次伏笔的兑现点

写到这里我想留一个我自己真的还没看清楚的点。

官方说昇腾 950 超节点下半年批量之后，Pro 会大幅降价。”下半年”是一个很大的窗口。

如果到 Q4 昇腾真批量了，V4-Pro 降到原来 V3.2 的价位（比如输出 ¥3），那国内做 Agent 的人就真没理由不切 DeepSeek。

整个开源生态的重心会再往国产卡这边移一次。

但如果到 Q4 昇腾 950 的产能又没跟上，V4-Pro 长期卡在 ¥24 的价位，那这次 V4 的”为昇腾改的底座”就会变成一个做了但没兑现的伏笔。

我手头的信息不够判断哪边概率更大。

所以今天这篇文章我不敢下”这是国产化拐点”的结论，只能说 V4 把子弹上了膛。

评论区我想问两类人。

一类是在国内做 Agent 产品、每个月烧几十万到几百万 token 的：V4-Pro 这个价位你会切吗？你的 Agent 栈切 DeepSeek 要改多少代码？

一类是做中文内容创作、月订阅 ChatGPT Plus 或者 Claude Pro 的：你会把写作主力切到 DeepSeek 官网吗？写中文这事上你测过它和 Claude/GPT 的差距吗？

我今晚会把 10 个我常用的中文写作 prompt 在 V4 官网跑一遍。如果 8 个以上过线，我大概率会把 ChatGPT Plus 那个账号先停一个月。