飞飞的AI实验室

用AI放大灵感,把想法变成作品。

cover

哈喽,我是飞飞。

上个月 Business Insider 写了一篇报道,给一群开发者起了个名字,open-laptop walkers,中文意思是「开盖步行者」。报道里说,这些人半开着 MacBook 在办公室走廊里走、在学校教室里走,Business Insider 的记者甚至在滑冰场里都遇到过。理由很简单:本地的 AI agent 在跑长任务,合上盖就掐了。

我看到这个名字的时候笑了几秒,又有点尴尬。因为最近自己也在干同样的事。MacBook 抱在怀里,屏幕翻到 30 度,因为 Codex 还在跑一个 PR review,没耐心等它跑完再出门。

5 月 14 日,OpenAI 把这事正式写进了产品。Codex 进了 ChatGPT 手机 app,iOS、Android 同步预览,连免费用户都能用。当天 OpenAI 官方 X 账号发了一张图,几台 MacBook 半开着摆在桌上,配文是 “Step away from your laptop”。翻译过来:现在可以合上电脑了。

ChatGPT 手机 app 里的 Codex 入口:Introducing Codex mobile

说人话讲,OpenAI 这次干的事,是把开盖步行者这个梗正式收编成产品功能。

开盖步行者是怎么变成一个亚文化的

想搞懂为什么有人愿意举着电脑走两站地铁,得先看一眼 AI agent 现在长什么样。

传统的开发工具是同步的,你点回车,编译器立刻吐结果,你能盯着屏幕等。Codex、Claude Code 这一代不一样,它们更像一个远程实习生。你丢一个任务过去,它可能花 20 分钟去读项目、跑测试、写代码、提 commit。过程中还会停下来问你”我看到两种实现路径,要走哪条”。

阅读全文 »

cover

哈喽,我是飞飞。

昨天我刚发完 PocketPal + Qwen3.5-0.8B 在 iPhone 15 Pro 上跑 27 tok/sec 那篇,今天又被 Google 这个 Edge Gallery 拽了进去。

这次不一样。手机上第一次有了能调工具的本地 LLM app。

今天下午 1:53 我在 iPhone 15 Pro 上装好 Edge Gallery、下了 Gemma-4-E4B-it、跑了 3 个 Agent Skill:QR 码生成、Google 地图嵌入、Mood Tracker 心情记录。每一个都跑通了。

5 张截图我会按顺序贴进来。

Simon Willison 公开评价这件事:「first time I’ve seen a local model vendor release an official app for trying out their models on iPhone」。

我同意他的判断,但还想加一句:这是 mobile on-device AI 的分水岭。

今天下午 1:53 我跑的第一个 prompt,自我介绍那 7.5 秒让我重写本地 LLM 的判断

打开 Edge Gallery、选 Gemma-4-E4B-it 模型、点 Agent Skills 模式、输入「你好,请介绍下你自己」。

阅读全文 »

cover

哈喽,我是飞飞。

5 月 11 日深夜我刷推刷到一条 @claudeai 的官方公告:「New in Claude Code: agent view. One list of all your sessions」。

那个瞬间我电脑上同时挂着 4 个 Claude Code session:一个在跑 PR review、一个在做 codemod 改一堆同名变量、一个在帮我写另一篇文章草稿、一个是我自己开来 ad-hoc 排查的。

4 个 tmux 窗口我已经记不清哪个在等我输入、哪个在跑、哪个其实早就跑完了。

第二天(今天 5/12)我升级到 Claude Code v2.1.139,跑了一行 claude agents,整个工作流就被收编了。

写这篇之前我又翻了一遍那个 dashboard,确认这次 Anthropic 真不是发了个新能力。

它发的是「认知开销减半」这件事。

昨晚我看到 Agent View 那一刻同时还有 4 个 session 在挂着

具体说一下我那天的真实工作状态。

阅读全文 »

cover

哈喽,我是飞飞。

我每天用 Claude Max $200/月 跑 Claude Code,平时根本不是本地 LLM 信徒。

但上周有两个场景把我推过去试 PocketPal:一个是飞机起飞前关 Wi-Fi 想继续写日记被打回原形,另一个是想用 AI 总结一份私密医疗记录但不想喂给云端。

我装了 PocketPal AI、下载了 Qwen3.5-0.8B q8_0、在 iPhone 15 Pro 上跑了 benchmark。

跑分截图里那个数字是 27.10 tok/sec

写到这里前我又翻了一遍公开数据:iPhone 16 Pro 跑 3B 模型才 4 tok/sec,Snapdragon X Elite 跑 7B 才 5 tok/sec。我这个 27 tok/sec 是怎么来的?

先看 iPhone 15 Pro 跑出来的 27 tok/sec 是个什么量级

跑分截图里的核心数字有两个:PP 585.16 tok/secTG 27.10 tok/sec

说人话就是:PP(prompt processing)是模型「读完你说的话」有多快,TG(token generation)是模型「往外蹦字」有多快。

阅读全文 »

cover

哈喽,我是飞飞。

5 月 8 日凌晨,蚂蚁百灵团队发了一个新模型:Ring-2.6-1T。1 万亿总参数、63B 活跃参数、专门为 agentic 工作流(说人话就是给 AI 写代码、让 AI 调工具)调过的推理模型。

同一个凌晨,Novita Labs 把这个模型上架到了 OpenRouter,免费

同一天,OpenCode(开源版 Claude Code,GitHub 90K+ star)把它加进自己的 OpenCode Zen 策展清单。

三方动作时间几乎卡在一起。免费窗口截止到 5 月 15 日 PT。今天是 5 月 11 日,还剩 4 天

我下午装好 OpenCode 跑了一轮,准备写这篇之前想了一会儿。这条免费下面有一行小字,我看完之后没法装作没看见。

4/21 到 5/8 这 17 天里 AI 编程世界到底发生了什么

先把时间线还原一下。

4 月 20 日 GitHub Copilot 暂停个人订阅注册,第二天 4 月 21 日 Anthropic 把 Claude Code 从 $20 Pro 套餐页面下架。

阅读全文 »

cover

哈喽,我是飞飞。

5 月 8 日 Anthropic 自己 Claude Code 团队的工程师 Thariq,在 X 上发了一条 9 个英文单词的推:”HTML is the new markdown.”后面跟了一篇《Using Claude Code: The Unreasonable Effectiveness of HTML》。

Thariq 自己披露这条推短短几天就跑到 3.4M 阅读、1.3 万收藏。Simon Willison 这种从 GPT-4 时代开始就默认让 Claude 写 markdown 的老用户,看完之后专门写了篇 link post 说自己准备改习惯。

但我今天不打算聊「Claude 该输出 markdown 还是 HTML」这种格式偏好的事。

我想聊的是另一件事:当 AI 输出越来越长、越来越结构化、越来越漂亮,工程师作为决策者的注意力到底还剩多少。

5/8 凌晨我刷到 Thariq 这条推时正在看 Claude 的 plan

那是个周五凌晨。我让 Claude Code 跑一个数据迁移的 plan,跑完吐出来一份 1500 行左右的 markdown,里面有 12 步、4 个表格、3 个 fallback 方案。我从头滚到尾大概用了 90 秒。然后我打开 X 准备睡觉,刷到了 Thariq 这条推。

Thariq 是 Anthropic Claude Code 团队的 Member of Technical Staff,前 YC W20、MIT Media Lab 出身,现在每天写 Claude Code 这个产品。他不是评论家也不是博主,他是每天用 Claude Code 跟 Claude 干活的一线工程师。

他在那篇短文里讲他自己已经几乎不让 Claude 写 markdown 了。所有的 plan、技术 spec、PR review、研究报告,他都让 Claude 直接输出 HTML,渲染成本地一个 .html 文件双击打开。配套他还放了一个 demo 站点 thariqs.github.io/html-effectiveness,里面有 20 多个 prompt 示例。

阅读全文 »

cover

大家好,我是飞飞。

5 月 8 日 The Information 抛出来一个数字:DeepSeek 准备接它成立 3 年来第一笔外部融资,总盘子 50 亿元人民币(约 75 亿美元),估值 500 亿美元。

这个数字本身已经够惊人。它是中国 AI 创业公司有史以来最大的一笔单轮融资。

但真正让我盯着屏幕看了好几遍的不是 75 亿这个数。

是另一个数字:在这 75 亿里,梁文锋本人要写其中最大的一张支票,金额大概是 20 亿元人民币(约 30 亿美元),占整轮的 40%。

而他在融资前已经持有 DeepSeek 89.5% 的股份。

一个持股 90% 的创始人,在公司第一次对外开放融资的时候,自己掏出近一半的钱。

这事在硅谷的剧本里我没见过。

创始人写最大支票,这件事的反常之处

阅读全文 »

cover

大家好,我是飞飞。

OpenAI 5 月 7 日发了 Codex 的 Chrome 插件。我昨晚刷到推送,第一时间想装上试,结果连着失败 4 次。

每一次失败的原因都不一样。我把这 4 个坑挨个写出来给你做参考,你装的时候对照避开,省两小时算我的。

先说结论:这个插件值得装。它和现有的 Computer Use 不是一回事。Computer Use 是 Codex 接管你的屏幕,自己拿鼠标点;Chrome 插件是 Codex 用你已经登录的浏览器在后台跑,跨多个 tab 拿 context、用 Chrome DevTools、跑 web 测试。两个机制,两种能力。

但前提是你能装上。

简单安装路径

正确的步骤就这一句:

升级 Codex → 打开设置 → 电脑控制(Computer Use)→ Google Chrome → 安装浏览器插件

看起来不复杂。问题在于这个路径上至少 4 个地方会让你卡住。

阅读全文 »

cover

大家好,我是飞飞。

4 月 26 日我写了一篇《Claude 桌面客户端有个开发者模式,把国产大模型直接接进 Cowork 界面》。文章里详细列了 7 家国产模型的 Anthropic 兼容端点,给出 5 步配置流程,结尾还专门留了一段”风险提示”:

这个开关原本是给企业 MDM 部署用的。一旦个人用户大规模拿它薅免费 UI 的羊毛,Anthropic 完全有可能在某个版本里加一道账号校验。所以现在用着的人最好做好备份方案的心理准备。

那时候我赌的是”6 个月内”。

5 月 7 日,11 天之后,Anthropic 把这条路堵了。

不是加账号校验。是更直接的招:在 Claude Desktop 1.6259.1 版本里,给 Gateway 模式加了模型 ID 白名单。系统会校验你接入端点返回的模型名,只允许以 “claude” 或 “anthropic” 开头的条目通过。DeepSeek V4、GPT、Grok 这些第三方模型直接不能用了。

同一天 Claude Code CLI 2.1.129 也跟着收紧。Gateway 的 /v1/models 模型发现功能从 2.1.126-2.1.128 的默认自动开启,改成了需要手动设环境变量 CLAUDE_CODE_ENABLE_GATEWAY_MODEL_DISCOVERY=1 才会生效。

11 天,把我那篇教程从”实用攻略”打成”文物”。

下面写一下这次封堵的具体技术细节、绕过方法目前能撑多久、以及我对自己那次时间预测赌错的反思。

阅读全文 »

cover

大家好,我是飞飞。

今早起来打开 Claude Code,启动栏蹦出来一行黄色 warning:

1
2
3
4
Skill listing will be truncated
22 descriptions dropped (full descriptions kept for most-used skills) (1.8%/1% of context): xlsx, docx, pptx, +19 more
run /skills to disable some, or raise skillListingBudgetFraction (currently 1%) in settings.json
Opting in would cost ~4k tokens for skills every session and uses rate limits faster

我第一反应是又出 bug 了。第二反应是我装了多少个 skill。

ls ~/.claude/skills/ 加上项目里的 .claude/skills/,结果是 26 个。其中 22 个的 description 默认就没被加载到 Claude 看得到的列表里。

也就是说我以为自己装了 26 个工具的 Claude Code,实际上 Claude 一启动只看到完整描述的是其中 4 个,剩下 22 个连”它能干什么”这件事 Claude 都不知道。

/doctor 看完之后我意识到这是一个很多人不知道但每天都在影响实际效果的细节。这篇把它讲清楚。

这条 warning 到底在说什么

先把机制摆出来。

阅读全文 »
0%