把文章一键排成公众号首图的 skill 火了，我研究完发现它跟 AI 画图根本两条路

发表于 2026-05-30 更新于 2026-07-28 分类于编程阅读次数：本文字数： 2.5k 阅读时长 ≈ 2 分钟

拆解claude-design-card与归藏social-card-skill（28个版式、10套主题）这类一键出图skill的原理，本质是把文字套进HTML模板再用无头浏览器截图，与AI图像模型生成完全是两条路，结论是文字为主的卡片走排版、画面为主的封面交给图像模型。

cover

哈喽，我是飞飞。

这几天我刷推、刷朋友圈，老是看到同一类东西在转：一个能把文章、一段文字甚至一个网址，直接变成公众号首图、小红书图文卡的 skill。

转的人都在说同一句话：以后配图不用打开 Figma 和 Canva 了，扔进去自动出。

我自己正好有一套出图的流水线，看到这个第一反应是：这不就是 AI 画图吗，我早在用了。

结果我把它扒下来研究了一遍，发现我想岔了。它跟我那套出图，根本是两条路。

这类 skill 到底在干什么，它压根不画图

这类「一键出图」的 skill，底层不是在画图，是在排版。

它的工作流其实很朴素。先把你给的文字提炼出重点，挑一个版式，套进一份写好的 HTML 模板，再用一个没有界面的浏览器把这张网页截成图。

说白了，就是先把内容渲染成一个网页，然后给网页拍张照。

我去翻了两个被转得最多的开源项目，机制是一模一样的。一个叫 claude-design-card，作者 geekjourneyx，做了 14 种格式，公众号封面、小红书卡、教程步骤卡都覆盖，走的是 Anthropic 那套米色底加衬线字的设计风。另一个是归藏做的 social-card-skill，攒了 28 个版式骨架、10 套主题，专门出小红书图文和公众号封面对。

这里有个小插曲值得说一句。最早传这事的那条推文，把名字写成 claude-design-card，参数又写成「28 布局 10 主题」。我对了一下，名字是前一个项目的，28 和 10 这组数字其实是归藏那个的。两个项目被人顺手说成了一个。我没法假装自己把每个功能都跑了一遍，但这类工具的路子是一致的：HTML 模板加无头浏览器截图。

它要替掉的，是你手动打开 Figma、Canva 一个个框对齐的那半小时。

它跟 AI 画图，差在文字是不是真的

搞清楚机制之后，它跟 AI 画图的区别就立住了，关键就在文字。

排版这条路，图上的每一个字都是网页里真实的文字。你写「800.88 MB」，截出来就是清清楚楚的「800.88 MB」，一个像素都不会错。版式是人提前写死的设计规则，模型只负责把内容往格子里填。

我用的那条路完全相反。我的封面是用图像模型生成的，banana 那一类。它的强项是画面、是质感、是把一个抽象概念变成一张有氛围的图。

但你让它在图里写字，它就开始抽风。中文尤其惨，笔画糊成一团，经常是几个谁也不认识的伪汉字。

我有一次嫌封面太空，想让它在角上补四个字的小标题。出来的东西我盯了好几秒才回过神，那四个位置全是张牙舞爪、谁也认不出的鬼画符。从那回起我就死了这条心。

所以我给封面写提示词，有一条死规矩：强制不许出现任何文字、字母、数字。我宁可要一张干净的纯画面，自己事后再往上贴字，也不让它在图里瞎涂。

一个是真文字，准；一个是画出来的字，糊。这一条差别，基本决定了两边各自能干什么。

我那套出图流程，缺的正好是这一块

把这个 skill 摆到我自己的流水线边上，我才看明白它补的是哪个洞。

我写公众号有一整套出东西的活。content-artist 这一步用图像模型生成封面，出来的是一张没有字的概念图。content-distributor 那一步把文章拆成公众号版、小红书版的文案。

但中间有一块我一直是空的：把文字精确地排进一张图，做成那种能直接发的卡片。

比如一句话的金句卡，比如三步操作的步骤卡，比如左右对比的表格图。这些图的命根子是文字要准、排版要齐，恰恰是图像模型最不擅长的。

我以前要这种图，只能自己打开设计工具慢慢挪。印象最深的一次，为了一张三步操作的步骤卡，我对齐那几个框、调字号、抠间距，前后磨了快一个钟头，做出来还没自己满意。那种活又费时又没成就感，说真的，纯粹是拿人当排版机器使。

所以这个 skill 跟我那套，谁也取代不了谁。它俩是两块拼在一起的图，我缺的那块正好是它擅长的。

什么活该交给谁，就看这张图的主角是谁

这么一对比，怎么选其实有个特别简单的判断：看这张图的主角，是文字还是画面。

主角是文字的，交给排版这条路。要读、要准、还要批量重复出同一种样式的，比如金句卡、数据卡、教程步骤卡、产品对比图。这种图你最怕的就是字错、字糊、字歪，那就用真能渲染文字的工具。

拿我自己来说，我写技术文经常要把一段操作拆成三四步，配一张步骤卡发小红书。这种图但凡字糊了、框歪了，整张就废了，读者还会顺手觉得你不专业。它对文字的要求是零容错的，这种活我绝不敢交给图像模型。

主角是画面的，交给图像模型。要的是氛围、是质感、是一眼的视觉冲击，比如文章顶部那张概念封面。这种图本来就没几个字，甚至一个字都不要，让模型放开了画反而好。它就算画跑偏了，大不了重新生成几张挑一张，没什么硬伤。

我现在的分法就是这样。封面这种一次性的氛围图，我继续用图像模型。卡片这种讲究文字的，准备交给排版 skill。两边各管各的，谁也别硬抢谁的活。

模板化是真省事，代价也得认

前面我一直在夸它省事。但省事是有代价的。

排版这条路最大的好处是省事，最大的代价也跟着省事一起来：同质化。

28 个版式骨架听着多，可一旦用的人多了，大家的卡片会越长越像。归藏那套 Editorial 和 Swiss 的风格很正，但正也意味着辨识度，刷多了你一眼就能看出来「这又是那个 skill 出的」。

这跟图像模型刚好是两种相反的烦恼。模板化是每张都太像，稳定但容易撞脸。图像模型是每张都不一样，有惊喜但也可能给你跑偏，生成十张挑一张能用。

模板那条路的不确定性在「太一致」，图像模型刚好反过来，毛病出在「不可控」。你想清楚自己更怕哪个，再决定哪种活走哪条路。

写在最后

绕了一圈，我对这个 skill 的判断挺明确：它没打算抢图像模型的饭碗，补的是排版那一块以前一直靠手搓的活。

对我这种每天要出图的人来说，这块洞补上，等于流水线又少了一个要自己动手的环节。我接下来就准备把它接进我的 content-artist，专门管文字卡片，跟现在的封面图分工。跑顺了我再单独写一篇，把效果摆给你看。

最后想问问你：你平时给文章配图，是更头疼封面那张氛围图，还是更头疼那种要排得整整齐齐的卡片图？评论区告诉我，我想知道大家卡在哪一块更多。