飞飞的AI实验室

用AI放大灵感,把想法变成作品。

cover

哈喽,我是飞飞。

今天聊一个我最近最想分享的事 —— 自从我订阅了 Claude Code,我的整个工作方式都变了。

不是那种”多了个好用的工具”的变,是那种”等等,原来事情可以这样做?”的变。上周有个需求,以前我估摸着要写一天,结果一个半小时搞定了,还包括测试。当时坐在椅子上愣了一下,觉得有点不真实。

这段时间我用 Claude Code 做了不少事情——写代码、看源码学新东西、给自己搭了一套写文章的自动化流水线。下面挑重点说说。

先说订阅这件事

我之前也折腾过不少 AI 编程工具。Copilot 用了很久,Cursor 也试过一阵子。说实话它们都能用,但总觉得差了点什么。

Copilot 最大的问题是它只看得到当前文件。你在写一个组件,它帮你补全这个组件的代码还行,但它根本不理解你整个项目的架构。改了接口它不知道要同步改类型定义,修了个 bug 它不知道同一个逻辑在三个地方都要改。

Claude Code 不一样。它是 Anthropic 官方出的,一个完全运行在终端里的 AI 编程 Agent。注意,不是”编程工具”,是 Agent。它能读你整个代码仓库,理解项目结构,自己执行命令,自己跑测试,自己提交代码。

Anthropic 自己有个数据,他们工程师写的代码里 90% 是 Claude Code 完成的。我一开始觉得这个数字有点夸张,用了一阵之后觉得 —— 说不定真没夸张。

阅读全文 »

cover

大家好,我是飞飞。

最近在用 Codex 和 Claude Code 写代码的时候,我发现一个明显的变化:Spec 这个词出现的频率越来越低了,取而代之的是一个新词 —— Skills。

不是那种简历上写的”熟练掌握 Java”的 skills。是一种全新的 AI Agent 能力封装方式。

这个变化不是小打小闹。它背后是整个 AI 编程产品方法论的一次换代。

Spec Driven Development:曾经的”正确答案”

先说说 Spec 是怎么火起来的。

2025 年底到 2026 年初,AI 编程圈最热的概念是 Spec Driven Development(SDD)。核心思路很简单:你先写一份详细的需求规格说明书,把要做什么、怎么做、边界条件都写清楚,然后把这份 spec 喂给 AI agent,让它照着执行。

听起来很靠谱对吧?实际上确实管用。

Anthropic 用这个方法让 Claude 从零开始用 Rust 写了一个 C 编译器。Vercel 用它造了一个 TypeScript 版的 bash 模拟器。GitHub 甚至专门做了一个 spec-kit 工具来标准化这个流程。

阅读全文 »

cover

哈喽,我是飞飞。

昨天 AI 圈炸了一个大消息。Anthropic 正式宣布了一个新模型 —— Claude Mythos Preview。

这个模型有多猛?Anthropic 自己的原话是:”能力提升太大,我们决定不公开发布。”

没错,你没听错。一家 AI 公司,训练出了自己最强的模型,然后告诉全世界:这个东西我不卖。

这个”封印级”模型到底是什么来头?

故事要从三月底说起。

当时 Anthropic 的内容管理系统出了一个配置失误,大约 3000 份内部资料被意外曝光。其中就包括一份关于 Claude Mythos 的草稿公告。文件里提到,这是一个全新层级的模型,内部代号”Capybara”(水豚),定位在 Opus 之上。

消息一出,整个科技圈都炸了。有人在 X 上说:”Anthropic 在搞一个强到不敢发布的模型。”

当时大家还半信半疑。

阅读全文 »

cover

哈喽,我是飞飞。

上周 Google 发布了 Gemma 4,我第一时间在手机上跑了一下。说实话,我没想到延迟会这么低。

手机上跑大模型,以前的体验基本是:等、等、等,然后出来一段勉强能看的文字。Gemma 4 的 E2B 版本不一样——问一个问题,回答几乎是即时的。这让我重新想了一下”端侧 AI”这件事到底意味着什么。

Gemma 4 是什么

Gemma 4 是 Google DeepMind 在 2026 年 4 月 2 日正式发布的开源模型家族,基于 Gemini 3 的研究成果构建,采用 Apache 2.0 协议开源——这个协议比之前的 Gemma 协议宽松很多,商用基本没有障碍。

这次发布了四个尺寸:E2B、E4B、26B A4B、31B。

前两个(E2B 和 E4B)是专门为手机和边缘设备设计的。E 代表 Edge,2B 和 4B 是参数量。这两个模型有一个大模型没有的能力:原生支持音频输入,可以直接处理语音,不需要先转文字。

后两个(26B 和 31B)是混合专家架构(MoE),跑在消费级 GPU 或工作站上,面向更复杂的推理任务。

跑在手机上是什么感觉

阅读全文 »

cover

大家好,我是飞飞。

上周 Cursor 发布了 3.0,我第一时间升级体验了一下。打开之后愣了几秒——那个熟悉的文件树不见了,取而代之的是一个看起来像任务调度台的界面。

这不是一次普通的版本更新。

IDE 的位置变了

Cursor 3 最核心的变化,是把”智能体控制台”(Agents Window)设为默认界面,把传统的代码编辑器降级成了一个可以随时切换回去的”备用模式”。

官方的说法是:**”centered around agents, while keeping the depth of a development environment”**。

翻译成大白话就是:我们认为你以后大部分时间是在调度 Agent、审查代码,而不是自己一行一行地写。编辑器还在,但它不再是主角了。

这个判断是对的,还是太激进了?我觉得值得好好聊聊。

Cursor 3 到底发布了什么

阅读全文 »

cover

哈喽,我是飞飞。

前两天整理 Claude Code 的配置,打开全局 skills 文件夹一看,73 个。七十三个。

我自己都愣了。什么时候攒了这么多?

仔细回想了一下,大概是这么来的:先装了 superpowers 插件,一下子多了十几个 skill。觉得不错,又装了 gstack。然后飞书相关的 lark 系列,企业微信的 wecomcli 系列,Obsidian 系列……每个插件包里少则三四个,多则十几个 skill,像滚雪球一样越滚越大。

直到上周,我让 Claude 帮我写一个部署脚本,它居然先去调了 design-review 的 skill——一个检查 UI 设计质量的工具。我当时的表情大概是这样的:???

这件事让我意识到:Skills 装太多,Claude 会懵。

先说清楚:Skill 多了为什么会出问题

Claude Code 的 skill 机制是这样工作的:每个 skill 都有一个 SKILL.md 文件,里面的 description 字段会被加载到系统提示词里。Claude 根据这些描述来判断”当前任务该不该用这个 skill”。

问题来了。如果你装了 73 个 skill,系统提示词里就有 73 条 skill 描述。Claude 每次收到你的指令,都要扫一遍这 73 条,判断哪些相关、哪些不相关。

阅读全文 »

cover

哈喽,我是飞飞。

昨天智谱发布了 GLM-5V-Turbo,朋友圈被刷屏了。这次不是常规的文本模型升级,而是一个能”看懂设计稿、直接写代码”的多模态 Coding 基座模型。

我第一反应是:又一个多模态模型?但看完 Benchmark 数据,我愣了——在 Design2Code 这个”截图转代码”的测试里,GLM-5V-Turbo 得分 94.8,Claude Opus 4.6 只有 77.3。这差距有点大。

今天花了一下午时间,把官方文档、技术博客、还有几个实测视频都看了一遍。聊聊我的理解。

先说结论:这是一个专门为”视觉编程”设计的模型

GLM-5V-Turbo 不是通用多模态模型的又一个变种。它的定位很明确:在 GLM-5-Turbo 的编程和 Agent 能力基础上,从预训练阶段就融入了原生的视觉理解能力。

什么叫”原生”?

很多多模态模型是这么做的:先训一个文本模型,再训一个视觉编码器,最后把两个模块拼起来,中间加个”翻译层”。这种做法的问题是,视觉信息要先转成文字描述,再喂给语言模型。

GLM-5V-Turbo 的做法是:从预训练阶段开始,图像、视频、文本就是平等的输入。模型直接理解像素、布局、颜色、组件层级,不需要中间转换。

阅读全文 »

cover

大家好,我是飞飞。

上个月我刷 GitHub Trending 的时候,发现一件奇怪的事——排行榜前十里,有三个项目都跟 CLI 有关。不是什么花哨的 GUI 应用,不是什么炫酷的前端框架,就是最朴素的命令行工具。

OpenCLI、CLI-Anything、飞书 CLI,三个项目加起来 star 数几万,而且还在疯涨。

我当时的第一反应是:2026 年了,命令行工具怎么突然又火了?

后来我想明白了。不是 CLI 复活了,是 AI Agent 需要它。

GUI 是给人用的,CLI 是给 Agent 用的

我们先想一个问题:你让 AI 帮你在飞书上发一条消息,它该怎么操作?

如果走 GUI 路线,AI 需要打开浏览器,找到飞书页面,定位输入框,模拟键盘输入,点击发送按钮。中间任何一个步骤出错——按钮位置变了、页面加载慢了、弹了个验证码——整个流程就崩了。

如果走 CLI 路线呢?一行命令:

阅读全文 »

cover

大家好,我是飞飞。

上周我在 GitHub Trending 上刷到一个项目,名字里带着 “harness”,5 万多 star。点进去一看,满屏都是 Skills、Hooks、Subagents 这些术语,我当时就懵了——这帮人到底在玩什么?

后来我花了两天时间,把 Anthropic 的两篇技术博客、Claude Code 官方文档、加上社区里几十个项目翻了一遍,终于搞明白了。

Harness 这个词,翻译成人话就是:怎么给 AI 编程助手套一个工作流,让它别瞎搞。

今天把我理解的东西分享出来。

先搞懂一个问题:AI 为什么需要 Harness?

想象一个场景。

你招了一个天才程序员,智商极高,代码写得又快又好。但有个问题——他每隔一段时间就会失忆,忘记之前做了什么。而且他容易兴奋,一上来就想把整个项目一口气写完,写到一半发现上下文不够了,代码就烂尾了。

更要命的是,你让他自己检查代码质量,他每次都说:”写得挺好的啊,没问题。”

阅读全文 »

cover

哈喽,我是飞飞。

昨天整个技术圈都炸了。Anthropic 因为一个 .npmignore 配置疏忽,把 Claude Code 的 51.2 万行 TypeScript 源码通过 npm source map 文件全部泄露了。1900 个文件,一行不少。

但比起源码泄露本身,让我更兴奋的是里面藏着的一个彩蛋——一个完整的电子宠物系统,叫 Buddy。

你没看错。Anthropic 在一个专业的 AI 编程工具里,藏了一个拓麻歌子。

什么是 Buddy?

在 Claude Code 终端里输入 /buddy,就会孵化出一只属于你的虚拟宠物。它用 ASCII 字符画出来,住在你的输入框旁边,有自己的名字、性格、属性值,还会用气泡吐槽你的代码。

Claude Code Buddy 章鱼宠物 Cinder

上面这只就是我抽到的 Buddy——一只三星稀有度的章鱼,叫 Cinder。它的简介写着:

“A gloriously impatient octopus who debugs with all eight arms at once while providing withering commentary on your variable names and life choices.”

阅读全文 »
0%