把文章一键排成公众号首图的 skill 火了,我研究完发现它跟 AI 画图根本两条路

哈喽,我是飞飞。
这几天我刷推、刷朋友圈,老是看到同一类东西在转:一个能把文章、一段文字甚至一个网址,直接变成公众号首图、小红书图文卡的 skill。
转的人都在说同一句话:以后配图不用打开 Figma 和 Canva 了,扔进去自动出。
我自己正好有一套出图的流水线,看到这个第一反应是:这不就是 AI 画图吗,我早在用了。
结果我把它扒下来研究了一遍,发现我想岔了。它跟我那套出图,根本是两条路。
这类 skill 到底在干什么,它压根不画图
这类「一键出图」的 skill,底层不是在画图,是在排版。
它的工作流其实很朴素。先把你给的文字提炼出重点,挑一个版式,套进一份写好的 HTML 模板,再用一个没有界面的浏览器把这张网页截成图。
说白了,就是先把内容渲染成一个网页,然后给网页拍张照。
我去翻了两个被转得最多的开源项目,机制是一模一样的。一个叫 claude-design-card,作者 geekjourneyx,做了 14 种格式,公众号封面、小红书卡、教程步骤卡都覆盖,走的是 Anthropic 那套米色底加衬线字的设计风。另一个是归藏做的 social-card-skill,攒了 28 个版式骨架、10 套主题,专门出小红书图文和公众号封面对。
这里有个小插曲值得说一句。最早传这事的那条推文,把名字写成 claude-design-card,参数又写成「28 布局 10 主题」。我对了一下,名字是前一个项目的,28 和 10 这组数字其实是归藏那个的。两个项目被人顺手说成了一个。我没法假装自己把每个功能都跑了一遍,但这类工具的路子是一致的:HTML 模板加无头浏览器截图。
它要替掉的,是你手动打开 Figma、Canva 一个个框对齐的那半小时。
它跟 AI 画图,差在文字是不是真的
搞清楚机制之后,它跟 AI 画图的区别就立住了,关键就在文字。
排版这条路,图上的每一个字都是网页里真实的文字。你写「800.88 MB」,截出来就是清清楚楚的「800.88 MB」,一个像素都不会错。版式是人提前写死的设计规则,模型只负责把内容往格子里填。
我用的那条路完全相反。我的封面是用图像模型生成的,banana 那一类。它的强项是画面、是质感、是把一个抽象概念变成一张有氛围的图。
但你让它在图里写字,它就开始抽风。中文尤其惨,笔画糊成一团,经常是几个谁也不认识的伪汉字。
我有一次嫌封面太空,想让它在角上补四个字的小标题。出来的东西我盯了好几秒才回过神,那四个位置全是张牙舞爪、谁也认不出的鬼画符。从那回起我就死了这条心。
所以我给封面写提示词,有一条死规矩:强制不许出现任何文字、字母、数字。我宁可要一张干净的纯画面,自己事后再往上贴字,也不让它在图里瞎涂。
一个是真文字,准;一个是画出来的字,糊。这一条差别,基本决定了两边各自能干什么。
我那套出图流程,缺的正好是这一块
把这个 skill 摆到我自己的流水线边上,我才看明白它补的是哪个洞。
我写公众号有一整套出东西的活。content-artist 这一步用图像模型生成封面,出来的是一张没有字的概念图。content-distributor 那一步把文章拆成公众号版、小红书版的文案。
但中间有一块我一直是空的:把文字精确地排进一张图,做成那种能直接发的卡片。
比如一句话的金句卡,比如三步操作的步骤卡,比如左右对比的表格图。这些图的命根子是文字要准、排版要齐,恰恰是图像模型最不擅长的。
我以前要这种图,只能自己打开设计工具慢慢挪。印象最深的一次,为了一张三步操作的步骤卡,我对齐那几个框、调字号、抠间距,前后磨了快一个钟头,做出来还没自己满意。那种活又费时又没成就感,说真的,纯粹是拿人当排版机器使。
所以这个 skill 跟我那套,谁也取代不了谁。它俩是两块拼在一起的图,我缺的那块正好是它擅长的。
什么活该交给谁,就看这张图的主角是谁
这么一对比,怎么选其实有个特别简单的判断:看这张图的主角,是文字还是画面。
主角是文字的,交给排版这条路。要读、要准、还要批量重复出同一种样式的,比如金句卡、数据卡、教程步骤卡、产品对比图。这种图你最怕的就是字错、字糊、字歪,那就用真能渲染文字的工具。
拿我自己来说,我写技术文经常要把一段操作拆成三四步,配一张步骤卡发小红书。这种图但凡字糊了、框歪了,整张就废了,读者还会顺手觉得你不专业。它对文字的要求是零容错的,这种活我绝不敢交给图像模型。
主角是画面的,交给图像模型。要的是氛围、是质感、是一眼的视觉冲击,比如文章顶部那张概念封面。这种图本来就没几个字,甚至一个字都不要,让模型放开了画反而好。它就算画跑偏了,大不了重新生成几张挑一张,没什么硬伤。
我现在的分法就是这样。封面这种一次性的氛围图,我继续用图像模型。卡片这种讲究文字的,准备交给排版 skill。两边各管各的,谁也别硬抢谁的活。
模板化是真省事,代价也得认
前面我一直在夸它省事。但省事是有代价的。
排版这条路最大的好处是省事,最大的代价也跟着省事一起来:同质化。
28 个版式骨架听着多,可一旦用的人多了,大家的卡片会越长越像。归藏那套 Editorial 和 Swiss 的风格很正,但正也意味着辨识度,刷多了你一眼就能看出来「这又是那个 skill 出的」。
这跟图像模型刚好是两种相反的烦恼。模板化是每张都太像,稳定但容易撞脸。图像模型是每张都不一样,有惊喜但也可能给你跑偏,生成十张挑一张能用。
模板那条路的不确定性在「太一致」,图像模型刚好反过来,毛病出在「不可控」。你想清楚自己更怕哪个,再决定哪种活走哪条路。
写在最后
绕了一圈,我对这个 skill 的判断挺明确:它没打算抢图像模型的饭碗,补的是排版那一块以前一直靠手搓的活。
对我这种每天要出图的人来说,这块洞补上,等于流水线又少了一个要自己动手的环节。我接下来就准备把它接进我的 content-artist,专门管文字卡片,跟现在的封面图分工。跑顺了我再单独写一篇,把效果摆给你看。
最后想问问你:你平时给文章配图,是更头疼封面那张氛围图,还是更头疼那种要排得整整齐齐的卡片图?评论区告诉我,我想知道大家卡在哪一块更多。
参考资料
- [[guizang-social-card-skill]]
- [[claude-design-card-geekjourneyx]]
相关洞察
- [[design-card-skill]]