Karpathy 周二宣布加入 Anthropic,用 Claude 加速 Claude 的预训练

哈喽,我是飞飞。
今天下午我刷 X,看到 Karpathy 自己挂了一条三行推文。
我盯着屏幕停了 30 秒。
原文翻译过来是这样:「个人状态:我已经加入 Anthropic。我认为接下来几年在 LLM 前沿是特别 formative 的一段时间。我非常激动加入这边的团队,回到 R&D。我对教育的热情没变,会在以后某个时点重新做。」
formative 这个词很多人随手翻译成「关键」「重要」。我读完第一反应是「定型期」。说白了,他这话意思是 LLM 这件事还没结束,接下来几年是它变成什么形状的关键窗口,他要回到那个窗口里再亲手参与一次。
Karpathy 是谁,先从一段时间线讲起
39 岁,斯洛伐克裔加拿大人,OpenAI 当年 11 个创始成员之一。
2015 年 OpenAI 成立时他就在里面,2017 年离职去了特斯拉,挂的是 AI Director 头衔,主导 Full Self-Driving 和 Autopilot。在特斯拉那 5 年是他最被外界熟知的一段:每次 Tesla AI Day 上台讲 vision-only 的人就是他。
2022 年 7 月他离开特斯拉。
休息半年后 2023 年 2 月再回 OpenAI,干了一年,团队负责 midtraining 和 synthetic data。这一段履历后面会反复出现,因为跟今天的事情直接关联。
2024 年 2 月他再次从 OpenAI 离开。
2024 年 7 月,他在 Delaware 注册了 Eureka Labs,做 AI native school,第一个产品叫 LLM101n,是个本科生级别的 AI 课程,引导学生从零训练一个小型的 AI 助教。
然后是今天,2026 年 5 月 19 日(北京时间 5/20 凌晨),他在 X 上宣布加入 Anthropic。
我学 Karpathy 课程的三段亲身经历
2023 年 4 月,我刚开始看 Transformer 的源码,怎么看都不通。我搜到他在 YouTube 上的 nanoGPT 视频,4 小时一镜到底,从零开始写一个能跑通的小型 GPT。
那 4 小时我反复看了三遍。
第一遍跟着代码敲,第二遍暂停记笔记,第三遍只听他讲设计取舍。看完之后我第一次明白「Attention 不是黑魔法」这件事。
2025 年 6 月他在 AI Startup School 做了一场 keynote,提出 Software 3.0 的说法。意思是 Software 1.0 是显式代码,Software 2.0 是神经网络权重,Software 3.0 是用英语写的 prompt 程序。
那场 talk 我看完之后,整整一周在改自己的 prompt 风格。
更早之前我在 2018 年读过他那篇 Software 2.0 的博客,当时他还在特斯拉。我把那篇文章打印出来贴在工位旁边,看了大半年。那时候我刚转 AI 方向,那篇文章帮我理解了为什么神经网络是「另一种程序」。
Karpathy 的教育影响力很有重量。他不靠营销号风格圈粉,靠的是真的在用最朴素的方式教 AI,micrograd 全部源码不到 200 行,nanoGPT 也不到 300 行。所以今天他说「教育以后再做」,对我这种从他视频上学过东西的人冲击挺大。
岗位本身比「加入」这件事更值得读
Anthropic 发言人对 TechCrunch 证实,Karpathy 进的是 pre-training 团队,team lead 是 Nick Joseph,他将启动一个新团队,目标是「用 Claude 加速 pre-training research 本身」。
这句话信息量很大。
预训练(pre-training)是 Claude 这种模型最贵、最慢的阶段,一次完整的 train run 烧的钱和算力以亿美金计。「用 Claude 加速 pre-training」说白了就是让现役的 Claude 来辅助下一代 Claude 的训练:做数据筛选、生成合成数据、设计 ablation 实验、跑 sweep 之后帮人看 loss 曲线。
这是当前所有前沿 lab 都在押的方向:让现有的模型反过来训练下一代模型。
人不够用,数据快用完,就靠模型自己来扩产能。
而 Karpathy 上一段在 OpenAI 干的事情就是 midtraining 和 synthetic data,刚好就是这个领域。这次他进 Anthropic 的岗位,本质上是把 OpenAI 内部那套 playbook 带过来,在 Anthropic 重新搭一遍,且规模可能更大。
Nick Joseph 是 Anthropic 的 Head of Pretraining,也是原 OpenAI 出来的人。两个 OpenAI 老人在 Anthropic 一起搞下一代 Claude 的预训练,这件事比「Karpathy 跳槽」本身有更多解读空间。
Eureka Labs 这件事我想冷静说几句
Karpathy 2024 年 7 月公布 Eureka Labs 的时候,我和身边几个朋友群里都在转。一个深度懂 LLM 又会教书的人做 AI native 学校,这事光听就很值得期待。
我去看了 GitHub 上 LLM101n 的 repo。
截至今天(2026 年 5 月),README 顶上还挂着一句话:「This course will take time to build and there is no specific timeline.」(这门课需要时间来构建,没有具体时间表。)
从 2024 年 7 月到现在快两年,承诺的那门课还没做出来。
一个对教育有真感情、自己讲 nanoGPT 视频在 YouTube 上几百万播放的人,自己创业做 AI 教育做了快两年都做不出来 PMF。这件事说人话讲就是:AI native school 这个赛道目前供给端(怎么把 LLM 包装成靠谱的 AI 助教)和需求端(谁愿意为 AI 课程长期付费)都没成型。
国内一票做「AI + 教育」的朋友,这是个冷静信号。
不是 Karpathy 做得不好,是这件事本身比想象中难太多。
OpenAI 创始基因正在被系统性挖走
OpenAI 当年 11 个创始成员里,John Schulman 2024 年去了 Anthropic,Karpathy 今天进 Anthropic,等于 2 个原始创始成员现在在同一个对手公司。
Jan Leike 也是 2024 年从 OpenAI 离职后进的 Anthropic。Andrea Vallone 是 OpenAI 的 safety lead,2025 年底进了 Anthropic,跟着 Jan Leike 干 alignment。
这种节奏已经从单点跳槽演变成持续的、有方向性的虹吸。
Anthropic 用三个东西撑这件事:研究优先的内部文化(不像 OpenAI 那么多政治拉扯)、2026 年 2 月刚完成的 Series G $380B 估值(现在 secondary market 报价已经隐含 1 万亿美金)、Bloomberg 报道说公司在准备 2026 年 10 月走 IPO。
研究纯粹度 + 股权预期 + 退出在望,这套组合拳是其他对手现在很难复制的。
OpenAI 那边今年也有动作,但流出去的人多数选了创业(Mira Murati 做 Thinking Machines、Liam Fedus 做 Periodic Labs),没有像 Anthropic 这样形成一个明确的「研究系老兵聚集地」。
对中国应用层开发者的几句话
底座加速迭代的真正影响在应用层。
Karpathy 这种级别的人进 Anthropic pre-training,意味着下一代 Claude 的预训练流程会更高效,能力曲线会更陡,模型迭代速度还要再快一档。
对应用层开发者来说,如果你在做的应用本质上是「拿 API 套一层 prompt + 一层 UI」,那这种应用的 moat 会被反复洗。今天你做的工作流,半年后可能模型自己就能干。Cursor、Windsurf、Devin 这些工具上半年还跑得猛,下半年遇到 Claude Code、Codex CLI 之后份额立刻被压。
真正能活下来的应用,在我看来必须有三个东西里至少两个:领域专属的脏数据(行业人才库、医保病例、工程图纸)、用户的私域历史(多年的对话、笔记、行为)、深度嵌入的工作流(行业系统里跑了 5 年的审批链)。
这三样东西模型短期挖不走。
举个我身边正在发生的例子。我有个朋友去年做了个工具,本质上就是「Claude API + 一个针对法务合同的 prompt 库 + Web 界面」,去年这种产品月流水做到了七位数。今年 Claude Code 一升级,加上 Claude 自带的法务知识越来越扎实,他那个产品的付费用户连续 3 个月在掉,掉了 40%。
光做 prompt 工程和界面包装的项目,得想清楚自己今年能不能赚到下半年的钱。
Anthropic IPO 节奏和 Karpathy 个人博客这两件事
一个是 Anthropic 这次 IPO 的节奏。
Bloomberg 报道说 2026 年 10 月,三大投行已经早期参与讨论。如果真按这个节奏走,那今年 Q3 会是行业一个明确节点。Karpathy 加入这一波等于给 IPO 故事再加一个研究背书,节点前后会有更多类似量级的人才动作。
另一个是 Karpathy 自己。
他在特斯拉时期就以写技术博客出名(写过 Software 2.0 那篇影响一代工程师的文章)。我会持续盯他个人博客和 X,看他多久会公开写一篇关于「Anthropic 内部怎么做 pre-training」的文章。如果他下半年发一篇技术博客,会比任何分析师报告都值钱。
你呢,看过 Karpathy 的 Zero to Hero 吗?
哪一集对你影响最大,micrograd、makemore、还是 build-nanogpt?
评论区告诉我,我下次写「我用 nanoGPT 课程帮自己理解 Transformer 的笔记」的时候顺便聊。