今早用 GPT Image 2 生了张公众号头像,英文字母全对上了

cover

大家好,我是飞飞。

今天凌晨 OpenAI 官号发了条推,正式发布了 ChatGPT Images 2.0

我今早起来第一件事就是打卡 ChatGPT 来测试 Images 2.0,扔了一个搁了好几天的需求进去——给公众号”飞飞的 AI 实验室”生成一张带”Feifei”字样的卡通头像。

这事我之前用 Nano Banana Pro 跑过十来次,要么人脸糊掉,要么衣服上”Feifei”几个字母被渲染成歪歪扭扭的符号,总之不管怎么样都不太满意。

GPT Image 2 生成的头像

30 秒后就是这张,当时我直觉就是”这下搞定了”。

“Feifei”五个字母的衬线全部对上,眼镜、笔记本上”AI Lab”的小字、右边书脊”AI / Agent / LLM”三本书的名字——全部清清楚楚。

我顺手追问了一句”去掉圆形 LOGO,只保留文字,文字显示一行并居中显示”,它第二次出图精准地把我指的那个脖子上的吊坠删了,没动其他元素。

追问它做局部编辑的那轮对话

这种”指着一个元素说改掉它”的局部编辑,之前 Nano Banana Pro 要么整张重画,要么位置改错——这一次它一次就改对。

这篇文章写的就是今天一天我把 Images 2.0 丢进几个”AI 出图老翻车”场景里的试用记录——从头像、中英文封面、分镜漫画到信息图。

GPT Image 2 是什么时候发的

北京时间 2026 年 4 月 22 日凌晨(美国周二 19:00),OpenAI 在官方博客推了一篇叫《Introducing ChatGPT Images 2.0》的文章,介绍新的图片生成模型 GPT Image 2,API snapshot 名叫 gpt-image-2-2026-04-21

发布节奏比 Nano Banana Pro 干净——一条 Sam Altman 的推,一个半小时的 livestream,随后博客和 TechCrunch、The Verge、Wired、VentureBeat 的评测同一天铺开。

上一代 GPT Image 1.5 是 2025 年 12 月发的,距离这一代差不多四个月。OpenAI CPO Kevin Weil 在 livestream 里说过一句我印象挺深的话——“我们上次发 1.5 的时候,知道文字渲染还是个半吊子;这次我们把它做完了。”

访问方式分三档:

免费用户也能用 Images 2.0 的基础版,ChatGPT 和 Codex 里都可以直接调。Plus、Pro、Business、Enterprise 这几档付费用户多一个”Thinking”模式——它会先思考图片结构、联网查资料、再生成,每次 prompt 最多出 8 张保持风格一致的图。API 也同步开了,按输出的分辨率和质量收费。

模型的知识截止日是 2025 年 12 月——这个细节对我挺有用,后面会讲到。

再丢一条之前卡过我的中英混排封面 prompt

几周前给一篇 Hermes Agent 的博客生封面,我用 Nano Banana Pro 跑了三遍,”Hermes Agent”六个字母里有两个变成了模糊符号,中文副标题”两周后它开始替我想事情”被渲染成了形似中文但读不通的乱码。后来只能手动把文字叠上去。

今早头像搞定后,我顺手把当时那条 prompt 原样丢给了 Images 2.0。

标题是英文”Hermes Agent”六个字母,副标题是中文”两周后它开始替我想事情”,封面风格要求”科技感、深色背景、左侧一个发光的菱形图标”。

出来的图——英文六个字母渲染得跟设计师排版过一样;中文 11 个字里,前 9 个字完全正确,最后两个字”事情”的笔画之间有一根多出来的细线,但整体读得通,放到博客上没人会注意到。

我又试了一条更硬的——“在图片上渲染一句日语:画像生成AIが日本語をちゃんと描けるようになったのは2026年だった”。

这是一整句日语长句,包含假名、汉字和数字。GPT Image 2 给我的结果里,除了”描けるようになった”的”るよ”两个假名挤得稍微近了点,其他全对。

我问了几个懂日语的朋友——评价是”这个如果是印刷品完全可以直接用”。

The Verge 那篇评测里提到,Images 2.0 对日语、韩语、中文、印地语、孟加拉语这几个非拉丁文字的渲染有”significant gains”——我自己跑完觉得这话是真的,但”gains”不等于”fully solved”。下一节再说中文。

下午五点,我想试试 Thinking 模式能不能一次出 4 张保持风格的分镜

这个功能免费版没有,得开 Plus 以上才能用,我切到带 Thinking 图标的那一档。

prompt 是:”给我生成 4 张分镜图,描述’一个程序员从写代码、到跑测试、到 push 到 GitHub、到在手机上看到部署成功通知’这个过程,要求四张图里的主角是同一个人、同一间书房、同一种画风。”

Images 2.0 先 thinking 了大概 50 秒——它在思考区里列了人物设定(30 岁男性、短发、眼镜、白 T 恤)、场景设定(深色木桌、侧面窗、Mac 笔记本)、画风(日系青年漫画风、冷色调)。然后一次性吐了 4 张图。

四张图里主角的脸是同一张,眼镜是同一个款式,桌子和窗户的布局也对得上。第三张 push 到 GitHub 那张的屏幕里甚至能看见”main ← feature/hermes-agent”这种像真的 git branch 名字。

这件事之前我得做三步——先让模型生成一个主角参考图、再把参考图作为附件分别喂给后续每张图的生成、然后手动保持 prompt 里的描述一致。现在一条 prompt 吐 4 张。

我把这 4 张图保存下来,顺手做了一个”程序员日常”的漫画四格,贴到 X 上发了——这是我第一次完全不用 PS 就做出了一组能发的连续内容。

吃晚饭回来顺手让它做了一张时间线信息图

本来这种事情我会打开 Excalidraw 或者 Figma 拖半小时。

我丢的 prompt 是:”做一张信息图,标题是’2026 年 4 月 AI 模型发布时间线’,按时间从左到右列出这几件事:4/15 Gemini Mac 版、4/16 Anthropic Opus 4.7、4/17 Claude Design、4/20 Hermes Agent 成长案例、4/21 GPT Image 2。每个节点用一个小图标,配一行 5 字以内的中文说明,整体风格扁平、浅色、适合贴博客。”

它 thinking 了 40 秒,吐出来一张横版信息图。

5 个节点的时间节点日期全对,中文说明也全对——“Mac 版发布”、”Opus 4.7”、”Claude Design”、”Hermes 成长”、”Image 2”。小图标里 Gemini 那个菱形对上了,Claude 那个人脸剪影对上了,OpenAI 那个黑洞形状也对了。

但我注意到一个细节——GPT Image 2 的 knowledge cutoff 是 2025 年 12 月,它其实”不知道”这五个事件。我传了 prompt 里的描述,它把我给它的信息画出来了,图标的选择应该是来自训练数据里这几个品牌本身。我给它的信息越完整,它画得越准。

这件事让我明白 Images 2.0 更像一个超级听话的美工——你把构图、文字、图标要求都想清楚了扔给它,它执行得比人快;但如果你自己也没想清楚要一张什么图,指望它帮你想出来,那它给你的结果大概率是”好看但跟你心里的不一样”。

中文还是会糊,但比我想象中好

Wired 的评测里作者 Reece Rogers 做了一个很狠的测试——让 Images 2.0 生成一张”华人粉丝制作的 Timothée Chalamet 同人海报”,要求模仿中文粉丝圈的 meme 排版。

结果 20 多段中文文字里,大概一半是对的中文,一半是”看起来像中文但读不通”的乱码。ChatGPT 自己也诚实——Reece 让它翻译这些文字时,ChatGPT 回答”很多是伪造的、类中文的文字装饰,并不都能翻译”。

我今天上午也跑过类似的测试——让它生成一张中文 meme 海报,里面包含 15 个短句。结果是 11 句完全正确、2 句有一个字错、2 句是乱码。

我的结论是——单行、短句、标题级别的中文,Images 2.0 靠得住;整页多段的中文文字内容,它还是会翻车。

它最适合放哪几种场景

基于我今天早上的试用,我现在把 Images 2.0 固定放在这几个工作位上——

博客封面生成,尤其是要在图上写 3 行以内中文或英文标题的那种,效果已经比 Nano Banana Pro 干净。

多图风格保持一致,比如我要给一篇文章配 3 张示意图、或者做一组社交图的日常场景。Thinking 模式先出参考设定再批量生成这件事,之前要开三个 tab 现在一条 prompt。

结构性信息图,比如时间线、流程图、对比表格这种——只要我给到明确的结构,它能把结构和图标搭得漂漂亮亮。

但是我也不会把它当万能刀——纯概念图或者要它”自己想”的场景,Midjourney V7 还是更有”味道”;实拍风格的真实度,Nano Banana Pro 在某些角度上还是更稳。

我的用法

今天这半天,Images 2.0 在我工作流里挤掉的东西有两个。

挤掉了 Nano Banana Pro 在博客封面生成场景的位置——原因就是中文渲染差距太明显了,Nano 渲染一次我要手动 retry 3-4 次,Images 2.0 一次就成。

挤掉了 Canva 我用来做简单信息图的位置——当然如果是复杂的品牌视觉我还是得回 Figma 或 Canva,但快速做一个”5 点时间线”这种信息图,让 AI 直接画比我自己拖图层快 10 倍。

价格上我没算得很精——Plus 我本来就订着(每月 $20),Thinking 模式额度够我一天生个四五十张。API 我还没大规模跑,OpenAI 官网写的价格按分辨率和质量计费,粗算 2K 质量一张 $0.04 左右,比 Nano Banana Pro 的 $0.039 稍贵一丢丢,但差距在一分钱级别。


先预告下,明天打算把公众号和微信的头像都换成 GPT Images 2.0 生成的头像,这是我这半年多来用 AI 生成的头像里头第一次”直接能用”,不用重复修改的一张。

我现在比较好奇的是两件事——一个是 API 按量付费的场景下,Images 2.0 的”每张图成本”和”生成时间”在大批量跑时会不会稳定(TechCrunch 的评测里说多面板漫画”要几分钟”,这在 API 里是要计算的时间成本);另一个是中文长文渲染,Google 那边肯定也会在下一代 Nano Banana 里追这个点,下半年这两家在中文渲染上互相逼着迭代应该还有看头。

你今天有没有跑过 Images 2.0?特别是做图上文字的场景——我挺想看看你手里那些之前用 Nano / Midjourney / DALL-E 跑不出来的 prompt,换到 Images 2.0 之后有没有一次就成的。评论区聊聊。


参考资料