飞飞的AI实验室

用AI放大灵感,把想法变成作品。

cover

上个月,Spotify 联合 CEO Gustav Söderström 在财报电话会上说了一句话,整个硅谷都在转发:

“我们的高级工程师自去年 12 月以来,没写过一行代码。”

不是在休假。不是在偷懒。是因为 AI 在写。工程师们的日常变成了:描述需求、审查 AI 的输出、定义架构约束、做产品决策。

同一周,Anthropic 透露他们 70-90% 的代码由 AI 生成。OpenAI 内部工程师每天早上检查 Codex 一夜间完成的工作,审查 PR,合并代码。

这不是个别公司的实验。这是 2026 年的行业现实。

写代码——这个定义了”程序员”这个职业半个世纪的核心动作——正在从日常工作中消失。

取而代之的是什么?当”自然语言”真的成了编程语言,软件公司会变成什么样?程序员会变成什么人?

“编程已经被解决了”

2026 年 2 月,一句话在开发者社区炸开了锅。

阅读全文 »

cover

你打开 Twitter,一条推文说”Claude Code 是最强编程工具”。往下滑两条,另一个人说”Codex 才是王者”。再滑两条,有人喊”Gemini 3.1 Pro 性价比碾压一切”。

你困惑了。到底谁说的对?

答案是——都对,也都不对。

2026 年 3 月的 AI 编程工具市场,和一年前完全不同了。六个模型的 SWE-bench 成绩挤在 0.8 个百分点之内。最便宜的和最贵的之间差了 25 倍价格。一个开源模型的跑分追上了 Claude Opus。

这不再是”谁最强”的问题,而是”谁最适合你”的问题。

今天这篇文章,我把 2026 年 3 月最新的基准测试数据、独立评测结果、开发者社区反馈整合在一起,做一次尽可能公正的全面横评。不吹不黑,只看数据和真实体验。

先看成绩单:6 个模型的基准测试全景

直接上数据。以下是 2026 年 3 月主流编程模型在四大基准测试上的成绩:

模型 SWE-bench Verified SWE-bench Pro Terminal-Bench 2.0 价格(输入/输出 每百万 token)
Claude Opus 4.6 80.8% ~46% 65.4% $5 / $25
Gemini 3.1 Pro 80.6% 54.2% 68.5% $2 / $12
MiniMax M2.5 80.2% 51.3% $0.30 / $1.20
GPT-5.4 ~80% 57.7% 75.1% $2.50 / $15
Claude Sonnet 4.6 79.6% $3 / $15
Kimi K2.5 76.8% 免费(开源)
阅读全文 »

cover

你输入一句话:”帮我给用户列表加分页,每页 20 条,底部显示页码。”

3 分钟后,Codex 交出了代码。分页逻辑、页码组件、API 参数、边界处理——全部到位。

你又输入一句话:”重构这个支付模块,把回调地狱改成 async/await,同时保证和现有的错误处理逻辑兼容。”

10 分钟后,Codex 交出了代码。能跑。但你发现它把一个关键的错误重试逻辑给改没了。

同一个工具,为什么有时候像读心术,有时候又像在瞎猜?

要回答这个问题,我们需要搞清楚两件事:Codex 到底是怎么”理解”你的意图的?它的能力边界在哪里?

我花了两天时间,设计了 10 场不同难度的实测,从最简单的代码生成到最复杂的架构决策,逐一测试 Codex 的表现。结果很有意思——它的强项比你想的更强,但它的弱点也比你想的更明确。

Codex 是怎么”读懂”你的话的:Agent Loop 拆解

在聊实测之前,先搞清楚 Codex 的底层机制。这不是黑盒——ByteByteGo 根据 OpenAI 工程团队公开的技术细节,做了一次完整的架构拆解。

阅读全文 »

cover

面试官看着你的简历,问了一个问题:

“你用 AI 写代码吗?”

你点头。2026 年了,谁不用呢。

“那如果 AI 写的代码出了 Bug,上了生产环境,导致用户数据泄露——谁负责?”

你愣住了。

这不是一个假设性的问题。这是 2026 年真实发生在面试桌上的对话。而且,它正在成为衡量一个程序员是否”靠谱”的分水岭。

会用 AI 写代码的人很多。知道怎么为 AI 写的代码负责的人,很少。

今天聊聊这个越来越避不开的话题:当 AI 帮你写了大部分代码,你的”程序员自我修养”应该是什么样的。

一个真实的翻车案例

阅读全文 »

cover

早上 9 点,你打开电脑,泡上咖啡,打开 GitHub。

3 个 Pull Request 已经在等你审查了。代码干净,测试全绿,CI 通过,还附带了一段操作录屏视频解释改了什么。

不是同事加班做的。是你昨晚睡觉的时候,AI 自己从 Linear 上领了 3 个 ticket,自己写的。

这不是科幻。这是 OpenAI 在 2026 年 3 月开源的 Symphony 正在做的事情。

从 2021 年的 GitHub Copilot 到今天的 Symphony,AI 编程工具经历了 4 次根本性进化。每一次进化都把人类程序员从一层”苦力活”中解放出来。今天我们来完整回顾这条进化路线,然后深度拆解高手是怎么用这些工具搭建一条全自动开发流水线的。

第一次进化:自动补全(2021-2023)

代表产品: GitHub Copilot

2021 年 6 月,GitHub Copilot 公测。背后是 OpenAI 早期的 Codex 模型。

它做的事情很简单:你在编辑器里写代码,它猜你接下来要写什么,自动补全。就像手机键盘的预测输入,但预测的是代码。

阅读全文 »

cover

你用 Codex 写了一个 CRUD 接口。能跑。测试通过。你提了 PR。

Code Review 的时候,同事指出了 5 个问题:没有错误处理、缺少参数校验、数据库查询没有分页、返回格式不统一、命名不规范。

你看了看同事的 PR——同样用 Codex 写的,同样的功能,但代码干净得像教科书。错误处理、边界检查、类型安全、日志记录,一样不少。

同样的工具,为什么差距这么大?

因为 Codex 生成什么质量的代码,取决于你怎么”指挥”它。大多数人把 Codex 当成一个”快速代码生成器”——能跑就行。但高手把它当成一个”结对编程伙伴”——不只是写代码,而是写代码。

今天分享 6 个进阶技巧,帮你从”能跑”升级到”优雅”。

第 1 招:AGENTS.md 反馈循环——让 Codex 越用越懂你

大部分人的 AGENTS.md 写完就再也没动过。这浪费了它最大的价值。

AGENTS.md 不应该是一个静态文件,而应该是一个持续更新的反馈循环。OpenAI 官方文档明确建议:

阅读全文 »

cover

你装好了 Codex,兴冲冲地输入第一句话:”帮我做一个能赚钱的 App。”

Codex 回了你一大堆代码。你看不懂。跑不起来。然后你关掉窗口,得出结论:”这玩意儿不好用。”

这个场景,每天在无数人身上重演。

问题不在 Codex。问题在于——你不会调教它。

Codex 就像一个超级厉害的实习生。能力极强,但需要你把需求说清楚。你说”做个 App”,它不知道做什么 App、给谁用、解决什么问题。你说”给用户列表加分页,每页 20 条,底部显示页码,点击页码切换”,它 3 分钟就给你做好了。

差距不在工具,在用法。

今天这篇文章,我把从安装 Codex 到做出第一个能赚钱的产品的完整流程,拆成 5 个步骤,逐一讲透。不需要编程基础。只需要一个想法,和一点耐心。

第一步:安装——3 种入口,选适合你的

Codex 有三种使用方式,对应三种人群:

阅读全文 »

cover

上周五晚上,我做了一个实验。

打开 OpenAI Codex 桌面 App,输入一段话:”帮我做一个产品落地页,暗色系科技风,顶部导航栏,Hero 区域有标题、副标题和 CTA 按钮,下面是三栏功能介绍,底部有邮件订阅表单和页脚。”

然后我去泡了杯咖啡。

回来的时候,网页做好了。不是那种”能看但丑”的 AI 产物——是真的好看。渐变背景、毛玻璃卡片、hover 动效、响应式布局,手机上打开也没问题。

整个过程,6 分钟。我没写一行代码。

我把截图发到朋友圈。做前端的朋友回了一个字:”……”。做自媒体的朋友回了三个字:”教教我!”

这就是 2026 年的现实:同一个工具,程序员看到的是威胁,自媒体人看到的是自由。

先说清楚:2026 年的 Codex 到底能干什么

很多人对 Codex 的印象还停留在”代码补全”。那是 2021 年的事了。

阅读全文 »

cover

凌晨两点半,我盯着屏幕上那行绿色的提示——“Build Succeeded”。

那一刻我的手是抖的。不是因为咖啡喝多了,是因为我——一个连 Python 都没学完的产品经理——居然真的把一个能用的插件做出来了。

三天后,这个插件上架了。第一周,47 个人付费下载。收入不多,但那笔 $141 到账的时候,我对着支付通知截了三次图。

这是我人生中第一次靠”写代码”赚到钱。但严格来说,我一行代码都没写。

写代码的是 OpenAI Codex。我只是那个提需求的人。

今天我把这个过程完整记录下来——不是教程,更像是一个”非程序员用 AI 做产品”的实验报告。踩过的坑、花过的时间、最终怎么赚到钱的,全部坦诚分享。

OpenAI Codex 是什么:不是补全代码,是替你写整个项目

先说清楚一件事:2026 年的 OpenAI Codex,和你印象里的那个”代码补全工具”完全不是一个东西。

2021 年那个 Codex,是 GitHub Copilot 背后的模型,帮你补全代码片段。2026 年的 Codex,是一个自主编程 Agent——你用自然语言描述你要什么,它自己规划、自己写代码、自己测试、自己修 Bug,最后给你一个能跑的项目。

阅读全文 »

cover

你在 Claude Code 里输入”帮我写一个用户列表页面”,它给你生成了一堆代码。

用的是 Material 2。状态管理用了 mutableStateOf 而不是 StateFlow。ViewModel 里直接调了 API 没走 Repository。Modifier 顺序还是错的——先 padding 后 clickable,点击区域比你预期的小了一圈。

不是 Claude 笨。是它不知道你的项目用 Material 3,不知道你的架构是 Clean Architecture + MVVM,不知道你们团队的 Compose 编码规范。

每次都手动告诉它一遍?累。而且下次它照样忘。

这就是 Skills 要解决的问题。把你的 Android 项目规范、架构约定、编码偏好写进 SKILL.md,Claude 每次都会自动加载。从此,它生成的代码就像团队里的老成员写的——符合规范、遵循架构、不用你改。

截至 2026 年 3 月,社区已经涌现出大量 Android 专用的 Claude Code Skills。今天我们挑 7 个最实用的,逐一拆解。

为什么 Android 开发特别需要 Skills

Android 开发有三个痛点,让”裸用” Claude Code 的体验大打折扣:

第一,技术栈更新太快。 Jetpack Compose 从 1.0 到现在的 Material 3 Adaptive,Navigation 从传统方案到 Navigation3,Gradle 从 Groovy 到 Kotlin DSL + Version Catalog……Claude 的训练数据可能只覆盖到 2025 年中。你不告诉它,它可能还在用 Accompanist 的 System UI Controller(已经废弃了)。

阅读全文 »
0%