DeepSeek V4 憋了一年半终于端出来,这一次改的是给昇腾跑的底座

大家好,我是飞飞。
今天下午 2 点多,我手机又响了。
这周第四条 AI 大新闻。周一那天 GitHub 把 Copilot 停了注册、Anthropic 把 Claude Code 从 Pro 里拿走;周四我写了 /ultraview 实测;今天凌晨 GPT-5.5 发布;下午 DeepSeek V4 落地。
我今天上午那篇 GPT-5.5 的文章结尾留了一个问题,说 OpenAI 的 API 什么时候开才是该盯的事。不到半天时间,DeepSeek V4 把 API 直接开了。
跑分我晚点再说。让我今天想停下来单独写一篇的,是发布稿里那几行关于底层技术栈的话。V4-Pro 能不能跟 Opus 4.7 打五五开这种问题其实没那么重要。
如果我没读错,这次 V4 真正的主线是一件事:把模型改成了能跑在昇腾上的样子。
先把今天这次发布的关键数字列出来
4 月 24 日上午,DeepSeek 在官方公众号放出了 V4 预览版,两个尺寸:
- V4-Pro:总参数 1.6T(1.6 万亿),对比 V3.2 的 671B 翻了将近 2.5 倍。输入 ¥12/百万 token,输出 ¥24/百万 token,换算成美元是 $1.74/$3.48。
- V4-Flash:参数更小、激活更小,输入 ¥1、输出 ¥2/百万 token,约 $0.14/$0.28。
- 上下文:两个版本都标配 1M(百万)token。官网默认就是 V4,点开就能聊。
- 架构:混合模型。思考和非思考合一,通过
reasoning_effort=high/max控制。R2 这次没出,官方的意思是在这套混合架构里它的意义已经不明确。 - 定价提示:官方在定价页加了一行小字,说 Pro 的价格受限于高端算力是暂时的,等下半年昇腾 950 超节点上市后会大幅下调。
API 侧的兼容做得很直接,同时支持 OpenAI ChatCompletions 接口和 Anthropic 接口。
老的 deepseek-chat 和 deepseek-reasoner 两个别名三个月后(2026-07-24)停用,现在先指向 V4-Flash 的非思考模式和思考模式。
跑分我放一个数字就行:V4-Pro 在 LMArena 代码榜目前排第三,第一是 GLM-5.1。
官方坦诚和最前沿闭源旗舰的能力差距还有 3 到 6 个月。
这些加起来没有爆炸感。接下来的三节才是我今天反复读了几遍的部分。
涨价 8 倍还是便宜,但比便宜更重要的是官方为什么涨
DeepSeek 历史上最出名的标签是”价格屠夫”。V3.2 输出是 ¥3/百万 token,今天 V4-Pro 涨到 ¥24,差不多 8 倍。
但放到全世界看,Opus 4.7 是 $5/$25,GPT-5.5 昨天刚宣布的是 $5/$30。V4-Pro 的输出价折合 $3.48,依然比两家海外头部便宜 60% 左右。
“涨 8 倍还是便宜”这事本身不是新闻。我在意的是官方给涨价配的那段解释。
官方原话的关键点有两个:一个是参数翻了 2.5 倍、Agent 消耗的 token 量又在暴增,算力账确实撑不住了;另一个是说”高端算力供给有限”,等昇腾 950 批量之后会往下调。
第二点才是全文最有信号的一句。
它的潜台词其实是:V4-Pro 现在 ¥24 这个价定的是限流,不是真实成本。
当下卡不够用,DeepSeek 只能用价格把需求往回压一点。等昇腾到货,这个数会重算。
这个逻辑和昨天我写 GPT-5.5 时 Sam Altman 那句”token 效率更高,所以单价涨了账单不一定贵”完全是同一个剧本的两个版本。
一家在分子上动手(把单价抬高),一家在分母上动手(把国产算力补齐)。
两家今天都在说同一件事:2026 年这一代 AI 编程扁平月费的账算不动了。
为昇腾改的模型长什么样
这一段是我今天多花了半小时反复读的部分。
先说最容易被忽略的一个词:MXFP4。
V4 训练还是在英伟达 FP8 上做的,但把后训练和推理换成了 MXFP4 这种开放低精度格式。
这个动作等价于把自己从 NVIDIA 的 FP8 生态里解绑了一半,因为 MXFP4 是华为昇腾、寒武纪、壁仞这些国产卡能原生支持的格式。
推理不绑 CUDA 生态,是适配国产卡的前提。
再看底层算子这一层。V4 不再完全依赖 CUDA,用的是 TileLang 这个 DSL。
TileLang 是北大去年开源的瓦片式张量语言,写出来的算子能编译到不同硬件上。
DeepSeek 把 TileLang 塞进 V4 的核心算子里,等于把”硬件可迁移”这件事做进了架构本身。
最后是 MegaMoE 这个融合内核。它是为了减少专家并行里的通信等待设计的。
官方明写了:目前已经在华为昇腾上跑通。这是三件事里最直接的一个国产卡信号。
三个点放一起再看就清楚了。
V4 的架构设计本身就是以”能在昇腾上跑起来”为约束条件的,不是架构先做完再补一层适配层。

这条路径和当年 Meta 给自家 TPU 写 JAX 不是一回事。DeepSeek 不造卡,它是在替国产芯片厂商把上层生态先铺出来。
等昇腾 950 真到货那天,至少不用再从零造上层栈。
Fine-grained EP 这个工程优化也顺便公布了,英伟达和华为的卡上都测过,推理速度提升 1.50 到 1.73 倍。
这块属于锦上添花,但对上游算力账很有意义。
我把它接到 Claude Code 里试了一下中文写作
今天下午看到卡兹克已经把 V4-Pro 接到他的 Claude Code 里测过 3 个小时,他的结论很直接:Agent coding 场景下还有适配问题,skill 调用不自然,CLAUDE.md 约束有些不生效。
我自己在 DeepSeek 官网开了一个会话,没挂 Claude Code,用一个我已经跑了一个月的中文博客写作 prompt,让它把今早 GPT-5.5 那篇文章的一个小节重写成”冷科技”风格。
几个我关心的点:
- 写作感觉:这是今天我最意外的一块。V4 写中文是目前我用过的开源模型里最少”翻译腔”的。
“这玩意儿”、”涨 8 倍还是便宜”这种口语化表达它是敢用的,不像 Qwen 或 MiniMax 那种开口就是”让我们来一起探讨”。
- 上下文:我贴了一个 8000 字的上下文进去,它没压缩、没遗漏。这次 1M 上下文确实不是宣传数字。
- 审美:中文审美过关,用词不生硬,节奏控制合理。这块卡兹克的结论也一致:直出修改度大概 45%(Opus 4.6 是 30%,Opus 4.7 是 60%)。
但限制也很清楚:
- 没多模态。不能读图,不能处理截图。这周 Opus 4.7 最大的升级就是多模态,GPT-5.5 也早就是多模态了。V4 在这块落后了一整代。
- Agent 场景下工具调用不稳。卡兹克实测里那个没遵守 CLAUDE.md 里域名确认约束的 case,我在我的 skill 里也看到了类似的征兆。不如 GLM-5.1 和 MiMo-V2.5-Pro 贴合 Claude Code。
所以我对它的定位有数了:内容创作可以用,Agent coding 别用。
对一个 Claude Max 5x 用户这周的决策
这周我已经把决策改了两次。
周一 Pro 的 Claude Code 砍掉那一轮,我判断自己 $100/月的 Max 5x 短期不动;昨天 GPT-5.5 出来,我判断两周里不切 Codex、但把 10 个高频 prompt 跑一遍对照;今天 V4 出来,我的判断是这样的:
写中文博客、写公众号、写小红书这类场景,我会把主力从 Claude 切到 DeepSeek V4 官网。
开源模型里写中文这块,V4 是目前最顺手的一个。官网免费。
写代码这条线不动。Claude Code + Sonnet 4.6 的组合我已经摸了一个月,V4 在 Agent 场景的工具调用稳定性不够,切过去的成本高于收益。
API 走量这块我会观察。现在 Pro 涨到 ¥24/百万 token 的输出,和 Opus 4.7 的 $25 只差不到 60%。
等下半年昇腾 950 真把 Pro 价格打下来,这块我会重新测。
坦白说,V4 这次没有让我做出”现在就切 Claude Max”的决定。
但它打破了一件事:开源模型第一次在”写中文写得像中文”这个点上全面过线。这在去年都是不可想象的。
百万上下文普惠化这件事值得单独记一笔
V4 官方那句”1M 上下文成为所有服务标配”我想单独拎出来说一下。
今天开始,不管你是在官网免费聊天,还是调 V4-Flash 的 API(¥2/百万 token 输出),你都能拿到 1M 上下文。
对比海外模型,GPT-5.5 Plus 订阅里是 400K,Opus 4.7 API 是 200K,Gemini 3.1 Pro 是 1M 但 API 不便宜。
这意味着长文档处理、整本书分析、跨文件代码审查这些场景,第一次有了一个定价上打得过大多数人的选项。
KV Cache 压到原来 1/10、计算量压到 1/4,这两个数字就是让百万上下文能普惠化的根本原因。
V4 在架构上用了 Hybrid Attention(把压缩稀疏和重度压缩稀疏两种注意力结合起来)和 DSA 稀疏注意力两招,效果确实做出来了。
这块我觉得过半年再看,可能才是 V4 真正的长尾价值。比 Agent coding 的指标重要,比对标 Opus 的跑分重要。
百万上下文从奢侈品变成基础设施这件事,改的是整个开发者的工作方式。
昇腾 950 下半年的产能才是这次伏笔的兑现点
写到这里我想留一个我自己真的还没看清楚的点。
官方说昇腾 950 超节点下半年批量之后,Pro 会大幅降价。”下半年”是一个很大的窗口。
如果到 Q4 昇腾真批量了,V4-Pro 降到原来 V3.2 的价位(比如输出 ¥3),那国内做 Agent 的人就真没理由不切 DeepSeek。
整个开源生态的重心会再往国产卡这边移一次。
但如果到 Q4 昇腾 950 的产能又没跟上,V4-Pro 长期卡在 ¥24 的价位,那这次 V4 的”为昇腾改的底座”就会变成一个做了但没兑现的伏笔。
我手头的信息不够判断哪边概率更大。
所以今天这篇文章我不敢下”这是国产化拐点”的结论,只能说 V4 把子弹上了膛。
评论区我想问两类人。
一类是在国内做 Agent 产品、每个月烧几十万到几百万 token 的:V4-Pro 这个价位你会切吗?你的 Agent 栈切 DeepSeek 要改多少代码?
一类是做中文内容创作、月订阅 ChatGPT Plus 或者 Claude Pro 的:你会把写作主力切到 DeepSeek 官网吗?写中文这事上你测过它和 Claude/GPT 的差距吗?
我今晚会把 10 个我常用的中文写作 prompt 在 V4 官网跑一遍。如果 8 个以上过线,我大概率会把 ChatGPT Plus 那个账号先停一个月。