我天天拿来出封面的 Nano Banana 升了二代,一张假身份证把我看愣了

哈喽,我是飞飞。
我公众号每篇文章的封面,基本都是 AI 出的,不用我自己动手画。一句话喊一声,几十秒后一张图就躺在那儿了。这套我跑了大半年,舒服是真舒服,但有个死穴一直膈应我:图上文字一多,就开始乱码。
出图用的是 Google 那个 Nano Banana。这两天它升了二代,还正式 GA 了。我顺手测了几张,其中一张它生成出来的身份证样张,把我看愣了。
我那套封面,是跟 Claude Code 喊一句出来的
我用它的路子,可能跟你平时想象的有点出入。
我没有单独开个网页去 Google 那边点点点。我的封面是在 Claude Code 里一句话触发的。文章定稿后,我跟它说一句「给这篇配张封面」,它背后接的是我自己写的 content-artist 这个 skill,由这个 skill 去读文章主题、想画面、调 Nano Banana 生图,出完图再自动传到我的图床上。
我这头只管说一句话,回头图就在那儿等我了。有时候我连配色、风格都懒得细说,丢个主题给它,它自己拿捏,出来的八九不离十。
这东西用久了会上瘾。一旦习惯了写完文章随口一句就有封面,你就很难再回到自己开设计软件抠图的日子。也正因为天天靠它,它哪点变好、哪点掉链子,我比对着参数表看的人体会得直接得多。
老版 Nano Banana 有个特别明显的规律:文字少的时候,基本不出问题。比如我这个卡通头像,T 恤上的 Feifei、电脑上的 AI Lab、书脊上那个 Prompt,几个字都拼得清清楚楚,一点不糊。

可一旦我让它在图里放一段稍微长点的文字,比如封面标题加副标题,它就开始抽风,笔画黏成一团、字缺胳膊少腿,远看像字、近看是鬼画符。
说白了,老版在我这儿基本是个「只能出无字图」的状态。封面想压个标题进去,文字一多就开始缺笔少画,我要么反复重试碰运气,要么干脆把字从图里删掉,改成纯色块的氛围图,标题挪回正文里去。
封面那行标题,对公众号来说几乎是点击率的命根子,读者刷信息流先看到的就是它。字一糊,整张图就废了,再好看的背景也救不回来。所以这道坎,别人也许无所谓,对我是真痛,我绕了大半年。
升二代我先感觉到的,是它变快了
这次升到二代(官方名字叫 Gemini 3.1 Flash Image),我没急着扒参数,先随手丢了几个活给它试手。
最直接的一个体感,是它变快了。我让它拿上面那张头像当底,给我画一张油画风格的版本。以前这种「基于一张图再创作」的活,我得等它磨一会儿,这回明显利索,图很快就出来了,质量还不打折。出来清清楚楚的,放大看也没有糊成一团变成那种伪油画。
快这一下,对我挺要紧。出图卡顿那几十秒,是我整条流水线里最容易让我分心去摸手机的地方。它快了,我盯着等的时间就短了,一口气能多出几张备选挑着用。对一天要出好几张图的人来说,省下的就是实打实的注意力。出得快还有个连带好处,我有底气一次让它多跑几版,挑个最顺眼的,而不是出一张就凑合用一张。
真正把我看愣的,是它生成的那张身份证
我想试试它到底能把「图里的字」做到多干净,就让它生成一张中国身份证的样子。出来那张,我盯了好几秒。

先说清楚,那是张一眼就能看出来的样张,右边压着「仅供参考」的水印,名字是王小明,地址是「某某街道」,号码也是凑的。我拿它纯粹是测清晰度和文字渲染,没别的意思,你也别想歪。
但质量是真的惊到我了。「中华人民共和国居民身份证」那行大字、姓名性别民族出生住址那一栏小字、底下那串身份证号,全都清清楚楚,没有一个字是糊的。更夸张的是国徽的纹路、卡面上那层底纹,它都给你描了出来。我把图放大,凑近看,边缘依然利落,细节没散。
我特意挑身份证来试,就是因为它把「字多、字密、还得规整」这三样最难的全占齐了。这种场景,正是老版最容易翻车的地方,它这回稳稳接住了。那一下我才真切感觉到,二代官方挂在嘴边的「文字渲染更强、图更清楚」,落到我手里,就是封面终于能正经放字了。以前听着像发布会辞令,现在成了我流水线上少操心的一块。
对我最实在的一个改变是,封面标题这回大概率能直接做进图里,不用每次都把字抠掉、再挪回正文。光这一条,就够我把整套封面模板重新捋一遍。
那 Nano Banana 2 和 Pro,我到底该挂哪个
这次其实一口气 GA 了两个型号,得分清楚,不然容易挑错。
二代 Nano Banana 2 底子是 Gemini 3.1 Flash,主打快和便宜,是 Gemini 里的默认款。另一个 Nano Banana Pro 底子是 Gemini 3 Pro,主打 4K 和更顶的文字渲染,单价大概是二代的两倍。简单讲,要极致质量、印出来挂墙上的那种,上 Pro;要又快又省、天天自动跑的,二代就够。我这种批量出封面的,毫不犹豫选二代。
对我这种把出图挂进流水线的人,二代正式 GA 这件事,比单纯「能用了」要重得多。GA 的意思,是它从那个随时可能改的预览版,转成了带稳定保障的正式版。这意味着我那条自动配图的链路,可以从「能跑」放心升级成「长期挂着跑」,不用整天提心吊胆哪天接口一变,图就出不来了。
再加上它单价压到几分钱一张,自动配图这种按张烧钱的活,才真正算得过账。一张封面省下的是几毛钱,可一年几百张滚下来,这账就值得算了。尤其我这种把出图当水电用的人,单价每降一截,胆子就更大一点,敢让它放开了多出。
同期我也瞄了一眼别家。Gemini Live 能实时出图改图,OpenRouter 上那个 Riverflow 2.5 主打让你亲手控制它的评分标准。能看出来,图像模型现在卷的早就不只是好不好看。能不能让你稳稳控制它、要什么给什么,正在变成新的胜负手。而这一点,恰恰是「自动配图」最吃的那块。
我打算把整条配图链路换到二代上
绕回开头那个死穴。实话讲,我用 AI 出封面大半年,最怕的从来不是它画得不够艺术,是它把图里的字写崩。这回二代把文字和清晰度这两块补上,对我这种流水线作业的人,等于又少了一个得手动盯的环节。
接下来我打算把 content-artist 这条链路彻底换到二代上,多跑些真实封面看看稳定性,回头单独写一篇摆效果给你看。要是中途又踩到新坑,我也照实说。
最后想问问你:你平时更头疼 AI 出图里哪一种翻车,是文字糊成鬼画符那种,还是整体风格飘、跟你要的根本不是一回事那种?评论区聊聊。