飞飞的AI实验室

用AI放大灵感,把想法变成作品。

Google 在 I/O 2026 把 Antigravity 拆成两个产品,老的 Antigravity IDE 保留下来管写代码,新的 Antigravity 2.0 desktop app 全新构建管跑 agent。拆分背后 Google 公开承认编辑器不再是 AI 编程的中心,agent harness 才是。6 月 18 日 Gemini CLI 全面停用,30 天迁移窗口。

阅读全文 »

cover

哈喽,我是飞飞。

昨天打开 Claude Code,顶上提示 Opus 4.8 可用了。说实话,我没急着点升级。用过几代模型的人都有这条件反射:新版本一冒头,心里先打鼓的是切过去会不会更慢、更贵,把顺手的工作流搞乱。强不强是后面的事,能不能平滑切过去才是当下最关心的。

我盯着那行价格看了两秒,松了口气。常规价格跟 4.7 一模一样,输入 5 美元、输出 25 美元,每百万 token。也就是说,切过去这件事,几乎不要钱。

这两天我把日常的活儿都搬到 4.8 上跑了一遍,从写代码、做 review 到跑一次性脚本。该不该切,我心里已经有答案了。

切过去几乎零成本,这是让我最先松口气的地方

价格不变,这次升级就没有「要不要为新模型多掏钱」的纠结。

我用的是 Claude Code,切模型就是在配置里把模型 id 从 claude-opus-4-7 改成 claude-opus-4.8,存盘、重启一下就生效,前后不到一分钟。切之前我还特意留了条后路:万一手感不对,把那行改回去也是几秒钟的事,之前跑了一半的项目不会受影响。说白了,这是一次可以随时反悔的升级。

Claude Code 里 /model 切换:Opus 4.8 已是默认模型,还能调 effort

我想起前两年换模型那阵子,光是担心「新版本是不是更贵」「上下文是不是变小了」就要纠结半天,有时候还得重新调一遍 prompt。这次完全没有这些负担。价格那一栏数字没动,等于把决策里最让人犹豫的那一项直接划掉了。

阅读全文 »

cover

哈喽,我是飞飞。

上周我干了件蠢事。手头一个功能,给一个列表页加批量导出,我懒得多想,一句「给这个列表加个导出 Excel 的功能」丢给 Claude Code 就让它开跑。四十分钟后回来,它确实把活干完了,代码也能跑。可方案整个拧了,它做成了同步阻塞式的,数据量一大整个接口直接卡死,而我要的是后台异步生成再下载。前后它按自己的理解改了七八个文件,跟我真正想要的差了十万八千里。

那一刻我没法只改一两行收场。它太勤快了,错误的方案被它高效地铺满了半个 codebase,我盯着 diff 看了半天,最后干脆 git reset 全推倒重来。四十分钟白费不说,我还得再花二十分钟把它生成的一堆错文件清干净。

那天晚上我想明白一件事:用 coding agent 这一年多,我踩过的大坑,几乎都不在它写代码的过程里,而在我按下回车之前那几分钟。

「一开始走偏,后面怎么改都改不好」,这句话戳了我很久

前几天刷到宝玉一条分享,大意是用好 coding agent 重点在两头,尤其是开头,一开始走偏了,后面怎么改都改不好。

我盯着这句话看了好一会儿。它把我那次推倒重来的根本原因点破了。

agent 的产出上限,在你按回车那一刻就定了大半。需求里没讲清的地方,它会拿自己的理解去补,补出来的方向大概率不是你要的。等它哗哗写完几百行你才发现不对,这时候沟通成本比一开始讲清楚高十倍。

说白了,我们这些人用 AI 写代码,省掉的是敲键盘的时间,省不掉的是想清楚要什么的时间。后者你不在开头花,就得在返工时加倍还。

阅读全文 »

cover

哈喽,我是飞飞。

上周末清 Mac 硬盘,鼠标划过 Android Studio 那个图标,我愣了半秒:自己有快一个月没主动打开它写过代码了。

做 Android 这些年,我写代码的方式被 AI 换了五茬。Android Studio 从我每天盯八小时的主战场,一点点退到了后台,现在基本只是个偶尔点开看看文件的工具。这五茬怎么换的,我捋了一遍,发现自己几乎是被工具推着走的。你大概率也正卡在这条路的某一段。

最早在 Android Studio 里装 Copilot,AI 就是个高级补全

最早那会儿很朴素。我在 Android Studio 里装了 GitHub Copilot,后来又试了 Gemini 的代码补全插件。

那时候 AI 干的活很有限。我敲一个方法名,它帮我补全后面几行;我写个循环开头,它猜出循环体。补全质量比原来的自动提示强不少,但主导权百分之百在我手里。它只是个反应更快的副驾。

它能补的,都是我心里已经想好、只是懒得一个字一个字敲出来的东西。真正难的那部分,比如一个页面的状态该怎么拆、一段异步逻辑的边界在哪,它一点忙都帮不上。

我当时还真觉得,AI 编程也就这样了,顶多是个聪明点的输入助手。Android Studio 该怎么用还怎么用,Logcat、布局预览、断点调试,一个都没少。

主力挪到 Cursor 之后,Android Studio 退成了编译打包机

阅读全文 »

cover

哈喽,我是飞飞。

上周阿里 Qwen 团队 push 出了 Qwen3.7-Max,编程能力直接冲到 Code Arena 全球第 2,前面只剩 Claude 系列。这个分数本身已经够上新闻头条,但真正让我盯着 blog 看了半天的,是后面那串数据。连续 35 小时自主运行、1158 次 tool calls 不掉上下文、在阿里自家从未训过的芯片上拿到 10 倍加速。加上价格比 Claude Opus 4.7 便宜 6 倍这一刀,国内开发者第一次有了能跟客户报价的长链路 agent 模型。

上周阿里 Qwen 团队发的那篇 blog 我盯着屏幕坐了一会儿

5 月 20 号阿里 Qwen 团队推出 Qwen3.7-Max,blog 标题就一句话:「The Agent Frontier」。我点进去先扫了一遍 benchmark,看到 Code Arena 1541 排第 2 的时候说真的没怎么动心。国产模型冲榜这两年看得太多了,今天第 8、明天第 5、后天又掉回来,已经审美疲劳。

让我坐住的是后面那块内容。35 小时连续自主跑,1158 次 tool calls 不掉链,价格比 Claude Opus 4.7 便宜 6 倍。我第一反应是去翻知乎和即刻,国内的讨论度跟英文圈完全不成正比。AIbase 和 36 氪发了快讯但深度复盘几乎没有,Reddit 那边已经一堆 hands-on 评测,老外讨论得比中文圈热闹得多。

这事我得自己写一篇捋一下。

1541 分这个位置,阿里以前没在编程榜爬到过

Code Arena 是 LMArena 体系下的编程子榜,跟 Text Arena 一样走人类盲测投票,比静态 benchmark 难刷分得多。Qwen3.7-Max 拿到 1541 分排全球第 2,前面只剩 Claude 系列那一档。GPT-5.5、Gemini 3.5 Flash 都在它后面。

阿里以前不是没冲过榜。Qwen3.6-Max-Preview 4 月在 Text Arena 上拿过第 3,但那是综合榜,里面 chat、写作、reasoning 摊薄了。Code Arena 这种纯编程加 agent 工具调用的子榜,国产模型从来没有摸到过 1541 这个位置。Artificial Analysis Intelligence Index v4.0 给的分是 56.6,也是国产模型历史最高。

阅读全文 »

cover

哈喽,我是飞飞。

5 月深夜在 Reddit 上刷到一条几乎没人聊的消息

上周六凌晨我在 Reddit r/ChatGPT 板块刷到一条帖子,标题写「Anthropic officially launched 13+ FREE AI courses with certificates」。

楼主说几乎没人在讨论这事。我点进官网试了一下,确认这事真的没在炒作。anthropic.skilljar.com 这个域名属于 Anthropic 官方训练学院平台。邮箱注册,不要信用卡,每门课刷完发一张可挂 LinkedIn 的官方证书。

我自己用 Claude Code 已经快一年了,依赖到那种「断网三天就工作受影响」的程度。但 Anthropic 官方课程上线我居然完全没注意到。打开课程目录一看,里面有几门是我这一年自己摸着石头过河的盲区。当时是凌晨两点,我直接把咖啡续了一杯,注册账号开始扫课程目录。

我搜了一下中文圈的讨论度,知乎、即刻、推特上聊这事的人加起来不到 20 条。Reddit 那条原帖虽然 800 多 upvote,但中文翻译几乎为零。

说白了,这是我最近见过性价比最高的 AI 学习资源,没有之一。

Anthropic 三月开了个 academy,五月已经从 13 门扩到 17 门

Academy 平台是 2026-03-02 上线的,初版 13 门课。4 月 26 号扩到 17 门,5 月底统计已经到 18 门。还在动态加。

阅读全文 »

cover

哈喽,我是飞飞。

5/22 早上我刷到 400 这个数字,第一反应是看错了

5 月 22 号早上,我刷到智谱发了个新东西叫 GLM-5.1 高速版,输出速度 400 tokens/s。

第一眼没什么反应。国产模型这两年发布会太多了,看到这种新闻已经麻木。但隔了 30 秒我意识到 400 这个数字不对劲。

普通 GLM-5.1 大概 44 tokens/s,Claude Opus 4.6 标准模式 44,DeepSeek 官方 API 30 到 35。Gemini 3 Flash 算业界比较快的一档 121。最快的 Mercury C 是 633,但用的是 diffusion 架构,能力不在第一档。

智谱直接干到 400,而且是旗舰能力的旗舰,没有为了快阉割掉能力。

说白了,全球大模型 API 的速度天花板被顶高了一截。

上手摸了一遍企业 API,眼睛追不上吐字的速度

我立刻申请了企业 API 权限上手测了一下。

阅读全文 »

cover

哈喽,我是飞飞。

上周三凌晨我在 Reddit 上刷到一个帖子,标题写着「weekly quota burned in 1 hour」。点进去发现是个 Antigravity Pro 订阅用户,账号刚续费完一周,开了一个 Composer session 跑重构,吃完午饭回来配额提示框就弹出来了。

第一反应是这哥们儿是不是误操作。

然后下面跟的是几十条同款吐槽。「I/O 之后我的 weekly quota 撑了 40 分钟」「Pro 订阅 22 美刀一个月,跑两个 multi-agent 任务就到顶了」「上周还能跑一整天,这周开两个 agent manager 同时跑就锁」。

我去 X 上搜 Logan Kilpatrick 和 Varun Mohan 的最新 tweet,刚好赶上 Google 这一周内两次 3x 提升 Antigravity 内的 Gemini 配额。Logan 的原话是 「We just 3xed the Antigravity limits again, but this time, the weekly quotas. We want you to stay in flow state building with Gemini」。

5 天内两次 3x,累积 9x。

但你打开 Reddit 评论区往下翻第二条高赞 reply,写的是「even 9x is still less than what we had before May 19」。

这件事不是单纯配额涨了 9 倍。

这一篇我把 Reddit 大批用户烧光周配额的 timeline、Google 5 天 9x 的真实算法逻辑、跟 Cursor / Claude Max 同档位的对比,还有国内 Pro 订阅用户接下来怎么决策,按「看到的现象 → 真实机制 → 国内影响」梳一遍。

阅读全文 »

Google I/O 2026 发布的 Gemini Omni 这一周在 X 上刷屏,最 viral 的不是清晰度也不是物理 grounding,是 conversational editing 这个新交互范式。我把 marble 弹珠、protein folding 黏土、violinist 多轮编辑、mirror ripple 这几条 standout 视频翻完之后,发现真正改变的是创作者跟视频的关系。

阅读全文 »
0%