飞飞的AI实验室

用AI放大灵感,把想法变成作品。

cover

大家好,我是飞飞。

今天有人在群里转了一段 Anthropic 内测中的 Insights 功能的工程 spec 给我。Insights 是 Anthropic 给 Claude Console 上的 Managed Agents 用户做的”跨 session 分析”工具,目前还在测试阶段,主流媒体没正式覆盖。

但我读完那段 spec 之后觉得它比 5 月 6 日 Code with Claude 大会上发布的那几个旗舰功能(Dreaming、Outcomes、Multiagent Orchestration)都更值得写一篇。

理由:这是我最近半年看到的 LLM 应用层最干净的一份”反幻觉架构”spec。普通开发者写自己的 LLM 应用如果遇到”跨数据点做 cross-record 分析”这类需求,几乎可以照着这套架构抄。

下面把这段 spec 拆开讲,重点不在新闻本身,在它的设计哲学。

先把 Insights 这个功能的机制描完

把用户给我的那段 spec 翻译成中文摆出来,再讲解读。

整个流程从抓 session 开始。Anthropic 抓你这个 Managed Agent 最近最多 100 个 session。

抓完之后进入并行 summarize。每条 transcript 单独发给模型(4 路并行),上下文里带上你这个 agent 的 system prompt。模型为每个 session 写一份 summary,字段包括 task(这个 session 在干啥)、actions(agent 做了哪些动作)、issues(有什么问题)、assessment(整体评价)。再额外打一个 0 到 100 的 quality score。

阅读全文 »

cover

大家好,我是飞飞。

我先把这篇文章最重要的一件事说出来:上周我赌错了。

4 月 30 日那篇《Anthropic 把 Claude Code 日均成本估算从 $6 改成 $13》的文章里,我在结尾给了一个赌注:”Avasare 那句话出来之后,Anthropic 接下来三个月要么砍掉 Pro 一档的 Claude Code、要么涨价、要么在 Max 5x 上加更严的’使用强度’限制。三选一。我个人倾向认为是后两者的组合。”

5 月 6 日,Anthropic 在 Code with Claude 开发者大会上选了第四条路:租下 SpaceX 旗下 Colossus 1 数据中心的全部算力,22 万块 NVIDIA GPU、超 300 兆瓦电力,月内全部到账。同一天宣布 Claude Code 五小时限速翻倍、Pro 和 Max 取消高峰限流、Opus API 速率大幅上调。

不是涨价。不是加限制。是反过来给了所有现有付费用户一倍的容量。

下面写一下我对这件事的看法,以及我赌错的那一段判断逻辑究竟漏掉了什么。

5 月 6 日具体改了什么

把硬动作先列出来,免得后面跑题。

Dario Amodei 5 月 6 日在 Code with Claude 大会上当场宣布的三件事,当天即生效

阅读全文 »

cover

大家好,我是飞飞。

群里今天下午有人甩了一张截图过来,说”老子的 Codex 现在屏幕右下角有个像素小恐龙在等我”。

我点开一看,是 OpenAI 5 月 2 日给 Codex 桌面 App 加的新功能。官方名字叫 Codex Pets。本质是一个永远漂浮在你桌面上的像素风小动物,实时反映你那条 Codex agent 在后台跑成什么样。

这个东西第一眼看是萌点。第二眼想想,又觉得它不只是萌点。它解的其实是一个真问题。我自己昨天刚写完那篇”AI 产品被劈成广告路线和订阅路线”,今天看到 Codex Pets,又想到这件事在更细的产品哲学层面还在继续分化。

下面写一下我对这个新功能的看法,以及它背后的设计判断。文章会比平时短一点,因为这事本身没那么重。

Codex Pets 到底是个啥

把 Codex Pets 一句话说完:你在用 Codex 跑 agent 任务(写代码、跑测试、改文件),传统做法是切回 Codex 窗口看 status。Codex Pets 让一只像素小动物挂在你桌面任意位置,用动作、表情、状态来反映 agent 在做什么。

OpenAI 默认放了 7 只预制宠物:原版 Codex(蓝色机器人)、Dewey(鸭子)、Fireball(小火人)、Rocky(小石头)、Seedy(嫩芽小人)、Stacky(堆叠机器人)、BSOD(蓝屏小怪)。每只都有一句话定位(Dewey “calm workspace days”、Rocky “when the diff gets large”、Seedy “small green shoots for new ideas”),看选择器界面就能感觉到 OpenAI 的产品团队是真的在玩这件事而不是凑数:

Codex Pets 选择器:7 只预制宠物 + 唤醒/刷新按钮

阅读全文 »

cover

大家好,我是飞飞。

昨天美西时间下午,OpenAI 把 ChatGPT 的自助广告平台对全美所有广告主开放了。这件事在中文圈不算大新闻,但海外 ad tech 媒体一晚上发了七八条报道。

我自己看到这条消息的时候本能反应是”又一个互联网产品要走广告化路线”。但晚上把 Axios、Adweek、Digiday 那几篇连着读完之后,我意识到这件事不能这么看。

放进过去十天 Anthropic 那边发生的事情里看,这一周不是一家公司在加广告。是两家头部 AI 公司在用截然不同的方式回答同一个问题:当 AI 用得越来越多、算力越来越紧、订阅模型撑不住的时候,钱从哪里来。

OpenAI 的答案上周二落地了:广告。

Anthropic 的答案上周也明确了:涨订阅 + 限流。

这是同一个产业从这一周开始被劈成两条不同路径的标志。

OpenAI 5 月 5 日具体改了什么

把昨天的硬动作先列出来。

阅读全文 »

cover

大家好,我是飞飞。

上个周末群里有人转了一条新闻给我,标题大意是”白宫拟调整对 Anthropic 监管立场,预示美国政府或转向更务实合作的 AI 治理策略”。我点进去之前以为是单纯的解冻新闻,看完之后发现故事远比标题复杂。

过去一周,白宫对 Anthropic 至少做了三个方向不一致的动作。要把它们读成”务实合作”,需要先把另外两条线一起摆出来。

我自己跟这件事的关系不大,我是 Claude Max 5x $100/月的订阅者,不在美国,也不需要 Pentagon 合同。但 Anthropic 这家公司是我每天用的工具背后的实验室。这周看完所有报道之后我觉得这条故事线值得单独写一篇,因为它是接下来一年 AI 治理框架的预演,影响会一路传到我们这边。

上周到底发生了什么

把时间线先列出来,省得后面绕。

4 月 29 日(Axios 独家):白宫内部正在 workshop 一个把 Anthropic 重新请回桌前的方案。Axios 引用一位消息人士的原话:”save face and bring em back in”。意思是给双方一个台阶下,把人请回来。背景是 Anthropic 之前因为拒绝给自主武器和大规模监控开放模型,被 Pentagon 标记为”供应链风险”,$200M 的合同直接黄了。

5 月 1 日(Axios 后续):白宫的官方口径变成”Anthropic 既是风险也是必需”。原话是 “both a risk and a necessity to AI progress”。

5 月 3 日(WSJ):白宫官员公开反对 Anthropic 把 Mythos 模型的访问范围从 50 家公司扩到约 70 家,理由是国家安全。同一天 Pentagon CTO Emil Michael 在 CNBC 上把 Mythos 单独定义为”a separate national security moment”,意思是这件事要单独按国安事件处理。

阅读全文 »

cover

大家好,我是飞飞。

昨天写完那篇省 token 的文章之后,我以为这周关于 Claude 的内容就告一段落了。

今早起床第一件事是被群里截图刷屏。Business Insider 昨天下午的一条报道:Anthropic 在 4 月 15 日悄悄把官方文档里”每个开发者每个活跃日的平均花费”从 $6 改成了 $13。

这件事的发现者叫 Ed Zitron,他是 EZPR 的 CEO,前 Business Insider 专栏作者。他在 X 上的原话是”Anthropic stealth-tweaked their Claude Code docs”。stealth 这个词他用得很准:没有公告,没有 changelog 条目,只是把那一页文档默默改了。

Anthropic 的官方回复也来得很快。发言人对 Business Insider 说:”这不是定价变化,也不是产品变化。Opus 4.7 现在是 Claude Code 的主力模型,我们更新这些数字只是反映从 2025 年 2 月那次更新到现在用户使用习惯的变化。”

我读完一上午的报道之后想写这篇。这件事单看是一个数字调整的小新闻,但放进过去十天 Anthropic 在做的一系列动作里看,它和上周的”2% 测试”、和 Amol Avasare 那句被很多人忽略的话,连起来才是完整的故事。

改了什么具体数字

Claude Code 的官方文档里有一页叫 Costs(code.claude.com/docs/en/costs),讲企业团队规划部署预算时怎么估算开销。

这一页的旧版(4 月 15 日之前)写的是:

阅读全文 »

cover

大家好,我是飞飞。

周末晚上我打开 Claude Code 的 usage 看板,被自己吓了一跳:上周累计 28M tokens。

我自己是 Claude Max 5x $100/月的订阅。Max 的好处是按 5 小时窗口给配额,不计 token 总量,听上去用不完。但我连着两天跑完整的博客 pipeline(researcher → writer → polisher → artist → distributor 一条龙),从早上 9 点到晚上 11 点几乎不停。第二天下午 3 点开始撞到 5 小时窗口的限流:每条新消息要等 90 秒才回。

这件事让我开始正经盯每个 prompt 的 token 消耗。一周下来摸出来 6 个手法,今天这篇是把它们摆出来给你看。

声明前置:我不是 Anthropic 内部员工,也没法读到他们的计费源码。下面所有的数字都是我自己 usage 看板上读出来的实测数据,能复现,但样本只有我一个人。如果你的工作流和我不一样,效果会有差异。

上周我跑了一遍账单

先把基线摆出来。

我的工作流主力是 Claude Code,模型默认 Sonnet 4.6。开了 1M 上下文的长上下文档位(按 Anthropic 现在的定价,超过 200K 的部分输入是 $6/M、输出是 $22.50/M,比标准档贵 50%)。每天大概 6 到 12 个会话,每个会话从几千 token 到几十万 token 不等。

上周这种节奏下,我看到的几个数字:

阅读全文 »

cover

大家好,我是飞飞。

昨天那篇 MiMo-V2.5-Pro 的文章发出去之后,群里跳出来一个我没料到的问题:能不能不开 Claude Pro 订阅,直接把国产大模型接到 Claude 桌面客户端的 Cowork 界面里用?

我第一反应是不行。Claude Desktop 我装了大半年,从来没看到任何关于自定义端点的入口。那个登录页面就是登录页面,没账号你连主界面都进不去。

今天翻到蓝点网那篇文章才发现,Anthropic 自己在 Help 菜单里藏了一个开发者模式。打开之后能配第三方推理端点,连 Claude 账号都不用登。蓝点网那篇文章的源头是 Linux.do 上一个叫 @Donnad 的网友,他翻 Anthropic 的官方文档时挖出来的。Anthropic 自己的 support.claude.com 上其实有这个文档,标题叫”Install and configure Claude Cowork with third-party platforms”,原本是给企业 IT 管理员做 MDM 部署用的(让 Claude Desktop 连企业自建的 AWS Bedrock、Google Cloud Vertex AI、Azure Foundry 这种私有推理服务)。但只要端点协议是 Anthropic 兼容的,理论上接什么都行。

国产大模型这边正好这两年纷纷推 Anthropic 兼容接口。这条路就通了。

下面是我今天下午把 DeepSeek V4 接进去之后整理出来的完整流程。

这件事到底解决了什么问题

先说为什么我觉得这个开关值得专门写一篇。

这周我连着写了 Copilot 停 Pro 注册、Claude Code 从 $20 套餐里拿走、GPT-5.5、DeepSeek V4、MiMo-V2.5-Pro 五件事。中间一条贯穿的主线是:海外模型订阅在变贵、变难拿,国产模型在变便宜、变好用。

阅读全文 »

cover

大家好,我是飞飞。

这周我已经写了四篇 AI 大新闻了:周一 Copilot 停注册 + Claude Code 从 Pro 下架,周三的 /ultraview 实测,昨天上午的 GPT-5.5,昨天下午的 DeepSeek V4。

本来想歇一天。但群里从前天凌晨开始就一直有人在问同一件事:小米那个 MiMo-V2.5-Pro 到底值不值得切。

我自己是 Claude Max 5x $100/月的订阅者,主力一直是 Claude Code + Sonnet 4.6。按理说这种国产新模型离我有点远。但这次问的人实在太多,再加上卡兹克昨天那篇实测把”国内最适合 Claude Code 的新模型”这个判断甩出来之后,我觉得自己也得花一天跑一跑,才能给朋友回个靠谱答复。

所以这篇不是发布新闻稿。它是我发布两天之后,把能搜到的官方数据、卡兹克的实测、Linux.do 上社区的吐槽、加上我自己在 Claude Code 里跑的一个小任务,摞在一起想看清楚一件事:MiMo-V2.5-Pro 在国内开源模型里到底排第几。

先把今天能查到的 MiMo-V2.5-Pro 硬数字摆出来

4 月 23 日凌晨小米突然甩出了 MiMo-V2.5 系列一共四款模型,旗舰是 V2.5-Pro,距离上一代 V2-Pro 只过了 36 天。

关键规格:

  • 参数:MoE 架构,总参数 309B,激活 15B。对比同期 GLM-5.1 是 754B、DeepSeek V4-Pro 是 1.6T。MiMo 是这一批里激活量最小的。
  • 上下文:原生 1M token。
  • 价格:0 到 256k 区间是 ¥7/¥21 per M tokens(输入/输出),256k 到 1M 区间是 ¥14/¥42。折合美元 $1.0/$3.0 起步。
  • Token Plan:小米这次同步推出了订阅计划,不区分 256k 和 1M,统一收费。
  • 开源:V2.5-Pro 和 V2.5 宣布将全球开源,公测期先放 API。
阅读全文 »

cover

大家好,我是飞飞。

今天下午 2 点多,我手机又响了。

这周第四条 AI 大新闻。周一那天 GitHub 把 Copilot 停了注册、Anthropic 把 Claude Code 从 Pro 里拿走;周四我写了 /ultraview 实测;今天凌晨 GPT-5.5 发布;下午 DeepSeek V4 落地。

我今天上午那篇 GPT-5.5 的文章结尾留了一个问题,说 OpenAI 的 API 什么时候开才是该盯的事。不到半天时间,DeepSeek V4 把 API 直接开了。

跑分我晚点再说。让我今天想停下来单独写一篇的,是发布稿里那几行关于底层技术栈的话。V4-Pro 能不能跟 Opus 4.7 打五五开这种问题其实没那么重要。

如果我没读错,这次 V4 真正的主线是一件事:把模型改成了能跑在昇腾上的样子。

先把今天这次发布的关键数字列出来

4 月 24 日上午,DeepSeek 在官方公众号放出了 V4 预览版,两个尺寸:

  • V4-Pro:总参数 1.6T(1.6 万亿),对比 V3.2 的 671B 翻了将近 2.5 倍。输入 ¥12/百万 token,输出 ¥24/百万 token,换算成美元是 $1.74/$3.48。
  • V4-Flash:参数更小、激活更小,输入 ¥1、输出 ¥2/百万 token,约 $0.14/$0.28。
  • 上下文:两个版本都标配 1M(百万)token。官网默认就是 V4,点开就能聊。
  • 架构:混合模型。思考和非思考合一,通过 reasoning_effort=high/max 控制。R2 这次没出,官方的意思是在这套混合架构里它的意义已经不明确。
  • 定价提示:官方在定价页加了一行小字,说 Pro 的价格受限于高端算力是暂时的,等下半年昇腾 950 超节点上市后会大幅下调。
阅读全文 »
0%