飞飞的AI实验室

用AI放大灵感,把想法变成作品。

cover

哈喽,我是飞飞。

上周回老家,我妈问我:”你天天说的那个 AI,是不是就是手机里的语音助手?”我愣了一下,然后意识到——她是认真的。

这不是个例。我发现身边很多非技术圈的朋友,对 AI 的理解停留在”Siri 能听懂我说话”这个层面。而我们这些天天跟 AI 打交道的人,已经在讨论 Agent 会不会取代 SaaS、上下文窗口该选 200K 还是 1M 了。

这个认知差距,比我想象的大得多。

三个真实场景

去年年底,DeepSeek 开源之后,AI 突然”出圈”了。很多普通人第一次真正接触到大模型。接触之后发生的事情,让我意识到这个认知差距有多夸张。

场景一:我妈以为 AI 会”偷看”她的隐私

我给我妈装了 DeepSeek,教她用语音输入问问题。她试了两次之后突然问我:”这个东西是不是会把我说的话都记下来?会不会被别人看到?”

我解释说这只是个工具,不会泄露隐私。她半信半疑:”那它怎么知道我问的问题?肯定是记下来了。”

阅读全文 »

cover

上一篇文章讲了 token 是什么,很多人在评论区问:那”上下文窗口”又是什么?200K 上下文和 1M 上下文有什么区别?

这个问题问得好。如果说 token 是 AI 的”计费单位”,那上下文窗口就是 AI 的”工作记忆”——它决定了 AI 一次能”记住”多少东西。

今天这篇文章,我用最直白的方式把上下文窗口这件事讲清楚。

上下文窗口是什么?一个比方就懂了

我跟朋友聊天的时候发现一个事——聊了半小时之后,话题从天气聊到工作,从工作聊到周末计划。我说”所以我觉得还是算了”,他立刻就知道我说的是周末爬山那事。这就是上下文的作用。

上下文窗口,就是 AI 的”聊天记忆容量”。

但 AI 的记忆跟人不一样。人的记忆是模糊的、有选择性的——你会记住重点,忘掉细节。AI 的记忆是精确的、机械的——它要么记住所有东西,要么什么都不记得。

上下文窗口的大小,用 token 来衡量。比如:

  • 128K 上下文 = 能记住大约 128,000 个 token
  • 200K 上下文 = 能记住大约 200,000 个 token
  • 1M 上下文 = 能记住大约 1,000,000 个 token
阅读全文 »

cover

你有没有注意过,ChatGPT、Claude 这些 AI 工具的定价页面上,写的都是”每百万 tokens 多少钱”?

第一次看到这个词的时候,我也懵了。什么是 token?为什么不直接按字数收费?输入 token、输出 token、缓存 token 又是什么鬼?

后来搞明白之后我才意识到:理解 tokens,是理解 AI 定价的钥匙。 不懂 tokens,你就不知道自己的钱花在了哪里,更不知道怎么省钱。

Token 是什么?一个比方就够了

先忘掉所有技术术语。

想象你去一家餐厅点菜。菜单上的价格不是按”一道菜”标的,而是按”食材克数”标的。你点了一份红烧肉,厨房不看”这是一道菜”,而是拆开看——猪肉 200 克、酱油 30 毫升、糖 15 克——然后按食材的总量给你算钱。

Token 就是 AI 世界里的”食材克数”。

你发给 AI 的每一句话,AI 不是”读一句话”,而是先把这句话拆成一个一个的小碎片——这些碎片就叫 token。AI 按 token 的数量来计算工作量和费用。

举个例子:”我想学编程” 这五个汉字,大概会被拆成 3-5 个 token。”I want to learn programming” 这句英文,大概是 5-6 个 token。

阅读全文 »

cover

Claude Code 用了一段时间之后,你会发现一件事:原生的 Claude Code 只是个底座。真正让它变强的,是 Skill。

Skill 就是给 Claude Code 装插件。每个 Skill 是一段预设的工作流程,用 /skill名称 呼出,Claude 立刻知道该怎么干。不用每次写长 prompt,不用反复解释你的需求,一个命令,一套完整的专业流程就跑起来了。

我用下来觉得最值钱的有 10 个,按实用程度排下来,跟你分享一下。

10个核心Skill一览

1. /browse — 让 Claude 真的会「看」网页

这是我用得最高频的一个 Skill。

/browse 给 Claude Code 接上了一个无头浏览器。你说”打开这个页面截图”,它真的去打开,截图发给你;你说”测试一下这个按钮点了有没有反应”,它真的去点。不是模拟,是真实的浏览器操作。

场景很多:验证部署是否成功、测试一个表单有没有 bug、对比改版前后的页面长什么样、拿竞品截图做参考。以前这些事要自己手动做,现在丢给 Claude,它跑完把结果发给你。

2. /find-skills — 让 Claude 帮你找 Skill

阅读全文 »

cover

“这个输入框用起来怎么这么难受?”

这是我帮朋友安装 Claude Code 时,她说的第一句话。光标不知道跑哪去了,想删一个词删了一整行,想换行直接把消息发出去了。刚接触终端输入的人,几乎都会在这里被卡住。

但其实 Claude Code 的输入框不难用,难的是这些快捷键没人告诉你。我自己摸索了两三周才把常用的都找齐,现在整理出来,非技术背景的朋友照着用就行,用过一周你就知道为什么不想换回去了。

快捷键速查图

最先要记的:光标移动

用鼠标选中再删是很多人的本能反应。但终端里没有鼠标,这时候这两个快捷键就是你的救命稻草:

  • Ctrl + A — 把光标跳到这一行最前面(A = 开头/All the way back)
  • Ctrl + E — 把光标跳到这一行最后面(E = End)

举个场景:你写了一长串 prompt,发现开头有个错字。不用按着方向键慢慢移,直接 Ctrl+A 跳过去改,改完 Ctrl+E 跳回末尾继续写。

按单词移动更快:

阅读全文 »

cover

昨天下午,Sora 官方账号在 X 上发了一条让人错愕的帖子。

“We’re saying goodbye to Sora.”

没有提前预警,没有解释原因,就这么一句话。距离 Sora 独立 App 正式上线,刚好六个月。

更魔幻的是,就在关闭公告发出前一天,OpenAI 刚刚发布了一篇博客——《Creating with Sora safely》,洋洋洒洒讲了他们为了让 Sora 更安全做了哪些努力,言辞之间全是”我们会继续改进”的意思。第二天,产品没了。

Sora 生命周期时间线

Sora 这 15 个月,走得有多快

2024 年 2 月,OpenAI 第一次展示 Sora,是一段 AI 生成的雪地奔跑视频。我当时看完的第一反应是:这假的吧?反复看了三遍,找不到破绽。那时候我还以为这东西离普通人用上还有好几年,没想到不到一年就公开了。

同年 12 月,Sora 正式对外开放,但功能还比较克制,主要面向 ChatGPT Plus 用户。

真正的爆发是 2025 年 9 月。Sora 2 横空出世,配套推出独立 App。视频质量上了一个台阶,更重要的是有了社交功能——你可以生成视频、混剪别人的作品、发到公共 Feed 里。就像一个 AI 驱动的抖音。

阅读全文 »

cover

你可能已经刷到过这个词了——“养虾”。

不是真养虾。是一群程序员、产品经理、甚至完全不懂代码的人,在手机上养了一只 AI “龙虾”,让它帮自己写代码、搞数据、做 PPT、甚至操作企业内部系统。上周我一个做运营的朋友还在问”MCP 是什么”,这周她已经让龙虾帮她自动生成日报了。

3 月 13 号,阿里云正式发布了 JVS Claw。一开始需要邀请码,很多人抢不到。现在,全面开放了。 访问 jvsclaw.aliyun.com 下载客户端,注册就能用,不用排队,不用邀请码。人人都能养一只自己的云端”龙虾”。

我昨天下载试了一下,说说真实感受。

JVS Claw 工作流程

先说清楚:JVS Claw 到底是什么

JVS Claw 是阿里云无影团队做的产品。你可以把它理解成一台”跑在云上的电脑”,但这台电脑上住着一只 AI Agent——也就是那只”龙虾”。

具体来说,JVS Claw 有两个核心模块:

ClawBot 是那只龙虾本身。它是一个 AI 助手,能理解你的自然语言指令,然后去执行各种任务。你跟它说”帮我整理这份 Excel 里的销售数据,按季度汇总”,它真的会打开文件、操作表格、把结果给你。不是给你一段代码让你自己跑,是它直接动手干。

阅读全文 »

cover

你有没有这种感觉:每次用 AI 写代码、写文章、做分析,都得把同样的话重复说一遍?

“帮我写一篇文章,要中文,2000 字左右,口语化表达,要有小标题……” 每次都这么说,累不累?

这就好比你招了一个能力很强的新员工,但他每天早上来上班都失忆了——你得从头跟他交代一遍工作流程。聪明是聪明,但你的时间全花在”交代”上了。

真正让 AI 变成”超级员工”的秘密,不是更好的模型,不是更长的上下文,而是——Skills

什么是 Skills

简单说,Skill 就是一份写给 AI 的”岗位手册”。

你把某个任务的完整流程、要求、约束、输出格式写成一个 Markdown 文件,存到项目里。以后每次需要干这件事的时候,打一个斜杠命令(比如 /writing-agent),AI 就按照手册来执行,不用你再重复交代。

拿我自己的博客举例。我写了一个叫 writing-agent 的 Skill,里面详细规定了:

  • 拿到选题后先搜索 3-5 篇参考资料
  • 生成 3 个标题候选,选最好的
  • 按照固定的 Hexo frontmatter 格式输出
  • 文章要 2000 字,口语化,有场景有数据
  • 自动生成封面图片
  • 写完直接存到 source/_posts/ 目录
阅读全文 »

cover

3 月 19 号深夜,Google 悄悄干了一件大事。

AI Studio 原来是个 Gemini 模型的试玩场——你写个 prompt,它给你生成个前端页面,关掉浏览器就没了。没数据库,没用户登录,没后端逻辑,顶多算个交互式的 demo 生成器。

现在不一样了。Google 直接把 Antigravity 编程 Agent 和 Firebase 后端塞进了 AI Studio,搞出了一个全栈 Vibe Coding 平台。你用一句话描述你想要什么应用,它帮你从前端到后端、从数据库到用户认证、从开发到部署全链路搞定。

这一刀下去,Bolt.new、Lovable、Replit Agent 全成了被瞄准的靶子。

先搞清楚:什么变了

旧版 AI Studio 能干的事很有限——生成个好看的前端页面,加点动画效果,仅此而已。关掉浏览器标签页,你做的东西就消失了。想加个数据库?自己搞。想要用户登录?自己搞。想部署上线?还是自己搞。

新版 AI Studio 补齐了所有短板:

数据库和用户认证自动接入。 这是最大的变化。当你的 prompt 里提到”用户注册””保存数据”之类的需求时,Agent 会主动问你要不要启用 Firebase。点一下”Enable Firebase”,它自动帮你配好 Cloud Firestore 数据库和 Firebase Authentication 登录系统,连登录页面的代码都帮你写好了。

能调外部 API 了。 想接 Google Maps 拿实时定位?想接支付接口?现在可以了。AI Studio 新增了 Secrets Manager,你把 API Key 存进去,Agent 会自动检测什么时候需要用到,然后安全地调用。

阅读全文 »

cover

上周五,《金融时报》爆了一个数字:OpenAI 计划在 2026 年底前把员工从 4500 人扩到 8000 人。

算一下,还剩大概 9 个月,要招 3500 人。平均每天招 12 个人。每天。

别的科技公司还在裁员、冻结 HC、”优化组织结构”,OpenAI 反过来开始搞人海战术了。这事儿乍一看挺猛,但仔细想想,它可能没有看上去那么自信——更像是一场被逼出来的加速。

先看事实:钱从哪来,人往哪去

OpenAI 现在不缺钱。最新一轮融资估值 8400 亿美元,软银孙正义领投,融资规模 1100 亿美元。年化收入已经突破 250 亿美元。手握这种量级的现金,招人的底气是够的。

那招来的人干什么?产品开发、工程、研究、销售——四条线同时铺。

但真正让我停下来想了一下的是一个新岗位——**”技术大使”(Technical Ambassador)**。这个角色不是写代码的,是帮企业客户把 OpenAI 的工具用起来的。说白了,就是 AI 行业的售前+客户成功。我上个月帮一个做零售的朋友接 OpenAI 的 API,光是搞清楚 function calling 的最佳实践就折腾了两天。这种”最后一公里”的痛苦,就是这个岗位存在的理由。

OpenAI 为什么要专门设这个岗?因为企业市场正在被 Anthropic 抢走。

真正的对手:Anthropic 的威胁比想象中大

阅读全文 »
0%