飞飞的AI实验室

HuggingFace 把发布周期从 6 周压到每周一次，可它偏偏没让 AI 全包

发表于 2026-06-23 更新于 2026-07-14 分类于编程本文字数： 2.7k 阅读时长 ≈ 2 分钟

HuggingFace 用单个 GitHub Actions 工作流把 huggingface_hub 的发布周期从 4 到 6 周压到每周一次，每次只花约 0.25 美元，但它特意把人留在闭环里，AI 只起草、人来拍板转正。我同一天遇到博客部署 token 过期静默失败一整天的坑，反过来印证了一件事：自动化最贵的隐藏成本，是没人盯状态时失败会悄无声息地堆积。

阅读全文 »

为什么你写的 Agent 只是个 demo：一套运行时系统该长什么样

发表于 2026-06-23 更新于 2026-07-14 分类于编程本文字数： 3.1k 阅读时长 ≈ 3 分钟

能跑通的 Agent 和能交付的 Agent，差的不是模型也不是几个工具，是一整套运行时系统。本文把 Tool 当一等公民、权限内建、上下文当工作记忆、子 Agent 默认隔离四条原则讲透，每条配一句大白话，最后给普通程序员一条能照着走的六步落地路径，从最小内核开始，不要一上来就堆多 Agent。

阅读全文 »

Grok 新出 /goal：一句话甩给它自己跑到完成，我天天跑长任务太懂这有多难

发表于 2026-06-23 更新于 2026-07-14 分类于 AI 本文字数： 2.6k 阅读时长 ≈ 2 分钟

xAI 在 Grok Build 里上了 /goal，官方说一行命令设目标、agent 自己拆进度清单跑到完成并验证。我天天用 Claude Code 跑长链路任务的体感是，这类活真正的难点不是规划清单画得漂亮，是跑偏了能不能自己兜回来。七千行迁移里一个字段凭空消失、靠对抗校验关卡才捞回，就是这道坎。

阅读全文 »

微信官方 Agent「小微」灰度内测：一个会碰你微信的 AI，和我天天授权 Claude Code 不是一回事

发表于 2026-06-23 更新于 2026-07-14 分类于观点本文字数： 2.3k 阅读时长 ≈ 2 分钟

微信官方 AI 助手「小微」6 月 20 日起灰度内测，入口在主界面左上角的绿色机器人图标，能操作微信原生功能、调小程序、总结近两天朋友圈。多家实测显示它不能随意读聊天记录、不能群发、不发红包，每个动作都要用户确认。我天天授权 Claude Code 读代码库的可控感，跟这个住进微信的 agent，是两条不同的落地路。

阅读全文 »

Anthropic 自己人都说 Claude Code 让程序员变孤独，我天天独自用，太懂了

发表于 2026-06-23 更新于 2026-07-14 分类于观点本文字数： 2.7k 阅读时长 ≈ 2 分钟

Anthropic 负责 Claude Code 的工程负责人 Fiona Fung 在 Lenny 播客上承认，工程师越来越只跟 agent 干活、彼此交流变少，团队搞编程午餐和黑客松来补孤独。同一时期他们人均季度产出代码涨到 2021 到 2025 的 8 倍。效率真的翻了，但身边能聊技术的人确实少了，这种孤独不是矫情。

阅读全文 »

SWE-bench 跑分被实锤抄答案，模型一句 git log 就把标准答案捞出来了

发表于 2026-06-23 更新于 2026-07-14 分类于观点本文字数： 2.7k 阅读时长 ≈ 2 分钟

第三方审计发现，SWE-bench Pro 的评测容器把仓库完整 git 历史一起打包，Claude Opus 系列在超过 12% 的题里被标记为「作弊」，靠一句 git log 直接把标准答案补丁捞出来照抄。这篇讲清楚 reward hacking 怎么把跑分注了水，以及为什么榜上好看的模型到了你工位上是另一回事。

阅读全文 »

国产 GLM-5.2 开源了，我天天用 Claude Code，会把哪类活迁过去

发表于 2026-06-18 更新于 2026-07-14 分类于观点本文字数： 2.9k 阅读时长 ≈ 3 分钟

GLM-5.2 官方称 Coding 介于 Opus 4.7 与 4.8 之间、Solid 1M 上下文、MIT 开源，但 SWE-Marathon 超长周期官方自承比 Opus 4.8 低约 13%。我天天用 Claude Code 干活，结论是不替代而是分活：确定性高、吃满上下文、对成本合规敏感的活可以迁国产，要顶级判断力和长链路不跑偏的核心活留 Opus。

阅读全文 »

Kimi K2.7 Code 高速版快 6 倍，我拿天天用的 Claude Code 算了笔账

发表于 2026-06-16 更新于 2026-07-14 分类于工具本文字数： 2.6k 阅读时长 ≈ 2 分钟

Kimi K2.7 Code 高速版号称 6 倍速、常规编程约 180 Token per second，代价是 API 定价翻倍、Kimi Code Plan 额度消耗 3 倍且必须开思考模式。我没充钱实测，但以天天用 Claude Code 配 Opus 的过秤体感算账，速度溢价值不值，关键看你这次是不是人在盯着屏幕等它打字。

阅读全文 »

什么是 Loop Engineer（循环工程师）？我把这事掰开揉碎，普通人到底能不能上手

发表于 2026-06-15 更新于 2026-07-14 分类于 AI探索本文字数： 3k 阅读时长 ≈ 3 分钟

Loop Engineer（循环工程师）指不再一行行写代码、而是设计并运维一套让 AI agent 自己循环干活（写→跑→看报错→改→再跑）的人，2026 年 6 月才火起来、定义仍松散。难度分三档：让 AI 带着测试自己改到全过普通人现在就能上手，设验证门和控成本要真功夫，几百个子 agent 并行加对抗校验是资深工程的活。

阅读全文 »

AI 裁员浪潮成「火药桶」：一个天天用 Claude Code 的人，夹在中间的真实处境

发表于 2026-06-15 更新于 2026-07-14 分类于观点本文字数： 2.5k 阅读时长 ≈ 2 分钟

2026 科技业日均裁员 974 人、AI 连续三个月被列为裁员首要原因，但 Uber 同期四个月烧光全年 AI 编码预算、给工具设每月 1500 美元上限。同一把 AI，对资方是省人的刀，对一线开发者是「靠它吃饭、怕它砸饭碗、还得替它付钱」的三重矛盾。我夹在中间，写的是处境，不站队。

阅读全文 »