AI 的"记忆力"有多大?200K 和 1M 上下文到底差在哪

cover

上一篇文章讲了 token 是什么,很多人在评论区问:那”上下文窗口”又是什么?200K 上下文和 1M 上下文有什么区别?

这个问题问得好。如果说 token 是 AI 的”计费单位”,那上下文窗口就是 AI 的”工作记忆”——它决定了 AI 一次能”记住”多少东西。

今天这篇文章,我用最直白的方式把上下文窗口这件事讲清楚。

上下文窗口是什么?一个比方就懂了

我跟朋友聊天的时候发现一个事——聊了半小时之后,话题从天气聊到工作,从工作聊到周末计划。我说”所以我觉得还是算了”,他立刻就知道我说的是周末爬山那事。这就是上下文的作用。

上下文窗口,就是 AI 的”聊天记忆容量”。

但 AI 的记忆跟人不一样。人的记忆是模糊的、有选择性的——你会记住重点,忘掉细节。AI 的记忆是精确的、机械的——它要么记住所有东西,要么什么都不记得。

上下文窗口的大小,用 token 来衡量。比如:

  • 128K 上下文 = 能记住大约 128,000 个 token
  • 200K 上下文 = 能记住大约 200,000 个 token
  • 1M 上下文 = 能记住大约 1,000,000 个 token

换算成人话:

  • 128K ≈ 一本中等长度的小说(10 万字左右)
  • 200K ≈ 两本小说
  • 1M ≈ 十本小说

上下文窗口大小对比

为什么上下文窗口很重要?

因为它决定了 AI 能处理多复杂的任务。

上周我想让 AI 总结一篇 5 万字的研究报告,结果发现它只有 32K 上下文(大约 2.4 万字)——根本装不下。我得把文章拆成三段,分别喂给它,然后自己把三段总结拼起来。要是它有 200K 上下文,一口气就能读完。

写代码的时候也一样。我用 Claude Code 重构一个项目,50 个文件,总共 15 万个 token。如果 AI 只有 128K 上下文,它只能看到其中一部分文件——改着改着就忘了另一半代码长什么样,容易改出 bug。但如果有 200K 上下文,它能把整个项目装进脑子里,改起来就不容易出错。

还有长对话的问题。你跟 AI 聊了 20 轮,每轮你说 100 个 token,AI 回 300 个 token。到第 20 轮的时候,历史对话已经累积了 8 万个 token。如果 AI 只有 32K 上下文,到第 8 轮就装不下了——它会自动”忘掉”最早的几轮对话,突然不记得你们之前聊了什么。

200K 和 1M 上下文,实际体验差多少?

2026 年 3 月,主流 AI 模型的上下文窗口大概是这样的:

模型 上下文窗口 适合场景
Claude Opus 4.6 200K 代码审查、长文分析、复杂对话
GPT-5.2 400K 多文档对比、大型项目重构
Gemini 3 Pro 10M 整个代码库分析、研究论文集

乍一看,1M 比 200K 大五倍,应该好用五倍吧?

实际上没那么简单。

1M 上下文的三个坑

性能会下降。

NoLiMa 研究发现,当上下文超过 32K token 的时候,12 个主流模型里有 11 个的表现会掉到短上下文时的 50% 以下。上下文越大,AI 越容易”找不到重点”。

就像你让一个人在一个图书馆里找一本书,比在一个书架上找要慢得多——信息太多反而干扰判断。

价格会翻倍。

很多人不知道的是:超过 200K 之后,token 价格会涨。

以 Gemini 为例:

  • 前 200K token:正常价格
  • 超过 200K 的部分:价格翻倍

所以如果你用 1M 上下文,实际花的钱可能是 200K 的 2-3 倍,而不是 5 倍——但也不便宜。

你可能用不到那么大。

Reddit 上有个讨论很有意思:一个开发者说”我的经验是,1M 上下文的模型在填满 40% 之后就开始跑偏,经常忘记自己在干什么。”

另一个人回复:”我还是更喜欢 200K 的模型。虽然容量小,但它在整个窗口范围内表现都很稳定。”

这就是工程上的权衡——不是越大越好,而是够用就好。

上下文大小和 Token 消耗速度的关系

上下文窗口大小不会直接影响 token 消耗速度——这点很多人不知道。

什么意思?

假设你跟 AI 聊天,每轮你说 100 个 token,AI 回 300 个 token。不管 AI 的上下文窗口是 200K 还是 1M,这一轮消耗的 token 数量都是 400 个——跟窗口大小没关系。

但是,上下文窗口会间接影响你的消费习惯。

如果你知道 AI 有 1M 上下文,你可能会:

  • 一次性贴更多文件进去(”反正装得下”)
  • 不开新对话(”还有空间,继续聊”)
  • 不删无关内容(”懒得整理了”)

结果就是:你的每一轮对话都在处理更多 token,账单自然就上去了。

真实案例:

我之前用 Claude Opus(200K 上下文)写代码,习惯每完成一个功能就开新对话。后来换成 Gemini(1M 上下文),觉得”反正装得下”,就一直在同一个窗口里聊。

一个月后看账单,Gemini 的消费比 Claude 高了 60%——不是因为 Gemini 贵,而是因为我用它的方式变了。

怎么选上下文窗口?

根据 2026 年的实际使用经验,我的建议是:

日常聊天、简单问答 → 128K 够了

如果你只是问问题、翻译、写邮件,128K 完全够用。省钱,速度还快。

代码审查、长文分析 → 200K 是甜蜜点

200K 是目前性价比最高的选择。能装下一个中型项目的代码,或者两三篇长文,而且模型表现稳定。

Claude Opus 4.6 的 200K 上下文,在整个窗口范围内表现都很一致——不会因为内容多了就开始犯糊涂。

整个代码库分析、研究论文集 → 才需要 1M

只有在你真的需要一次性处理海量信息的时候,1M 上下文才有意义。比如:

  • 分析一个有几百个文件的大型项目
  • 对比十几篇研究论文
  • 处理一整本书的内容

但即使在这些场景下,也要注意:别把所有东西都塞进去。 只放相关的部分,AI 的表现会更好。

一个省钱又好用的技巧

不管你用多大的上下文窗口,有一个技巧永远有效:话题一换就开新对话。

为什么?

因为 AI 是无状态的——每次你发新消息,它都会重新读一遍所有历史对话。对话越长,重复处理的 token 越多,消耗越大。

我现在的习惯是:

  • 写完一个功能 → 开新对话
  • 聊完一个话题 → 开新对话
  • 切换任务 → 开新对话

这样做不光省钱,AI 的回复质量也更好——因为上下文干净,它不容易被无关信息干扰。

写在最后

上下文窗口听起来是个技术指标,但它其实就是 AI 的”工作记忆”。

128K、200K、1M 的区别,不只是数字大小,更是使用场景和成本的权衡。大部分人大部分时候,200K 就够了——能装下足够多的信息,价格合理,表现稳定。

1M 上下文很诱人,但别被”越大越好”的直觉骗了。上下文太大,AI 容易跑偏,价格也会翻倍。够用就好,别贪多。

最后一个建议:不管你用多大的上下文,都要养成”开新对话”的习惯。这是最简单也最有效的省钱方式——而且 AI 的回复质量也会更好。

你平时用的 AI 是多大的上下文窗口?有没有遇到过”上下文不够用”或者”上下文太大反而变笨”的情况?评论区聊聊。