GLM-5V-Turbo 发布：国产多模态 Coding 模型来了，看图写代码到底有多强？

发表于 2026-04-02 更新于 2026-05-29 分类于 AI 阅读次数：本文字数： 4.6k 阅读时长 ≈ 4 分钟

cover

哈喽，我是飞飞。

昨天智谱发布了 GLM-5V-Turbo，朋友圈被刷屏了。这次不是常规的文本模型升级，而是一个能”看懂设计稿、直接写代码”的多模态 Coding 基座模型。

我第一反应是：又一个多模态模型？但看完 Benchmark 数据，我愣了——在 Design2Code 这个”截图转代码”的测试里，GLM-5V-Turbo 得分 94.8，Claude Opus 4.6 只有 77.3。这差距有点大。

今天花了一下午时间，把官方文档、技术博客、还有几个实测视频都看了一遍。聊聊我的理解。

先说结论：这是一个专门为”视觉编程”设计的模型

GLM-5V-Turbo 不是通用多模态模型的又一个变种。它的定位很明确：在 GLM-5-Turbo 的编程和 Agent 能力基础上，从预训练阶段就融入了原生的视觉理解能力。

什么叫”原生”？

很多多模态模型是这么做的：先训一个文本模型，再训一个视觉编码器，最后把两个模块拼起来，中间加个”翻译层”。这种做法的问题是，视觉信息要先转成文字描述，再喂给语言模型。

GLM-5V-Turbo 的做法是：从预训练阶段开始，图像、视频、文本就是平等的输入。模型直接理解像素、布局、颜色、组件层级，不需要中间转换。

这带来一个直接的好处：它能看懂一张设计稿里的视觉细节，然后生成对应的代码——不是描述这张图，而是直接写出能跑的 HTML/CSS/JS。

核心能力：看图写代码，不只是前端

Design2Code：从设计稿到可运行代码

这是 GLM-5V-Turbo 最亮眼的能力。

你可以给它一张手绘草图、Figma 设计稿、或者某个网站的截图，它会：

理解布局结构（哪里是导航栏、哪里是内容区）
识别视觉细节（配色、字体、间距、圆角）
推断交互逻辑（按钮点击、表单提交、动画效果）
生成完整的前端代码

官方给的案例里，有一个是手绘草图转网页。左边是纸上画的线框图，右边是生成的完整前端页面——不是静态截图，是真的能跑的代码。

更夸张的是”GUI 自主探索复刻”。你给它一个目标网站的 URL，它会：

自己打开浏览器，浏览整个网站
梳理页面结构和跳转关系
采集素材（图片、文案）
生成代码，复现整个站点

这个能力结合了 Claude Code 的 Agent 框架。模型不只是”看一张图、写一段代码”，而是能完成”探索 → 理解 → 规划 → 实现”的完整闭环。

不只是前端：纯文本 Coding 能力没退化

多模态模型有个经典问题：加了视觉能力之后，文本能力会下降。这叫”跷跷板效应”。

GLM-5V-Turbo 的数据显示，它在纯文本 Coding 上的表现，跟纯文本版的 GLM-5-Turbo 基本持平，个别项还略有提升：

CC-Backend（后端编程）：22.8 vs 20.5
CC-Frontend（前端逻辑）：68.4 vs 69.4
CC-Repo-Exploration（代码库探索）：72.2 vs 68.9

这说明视觉能力的引入，没有牺牲编程逻辑。

当然，跟 Claude Opus 4.6 比，GLM-5V-Turbo 在纯文本 Coding 上还是有差距的。Opus 4.6 在 CC-Backend（26.9）、CC-Frontend（75.9）、CC-Repo-Exploration（74.4）上都领先。

但 GLM-5V-Turbo 的优势在于：它在多模态 Coding 场景下，表现明显更强。

技术上做对了什么？我挑三个关键点

技术博客里堆了一堆术语，我挑三个我觉得最关键的说。

第一，它从训练第一天开始就把图像和代码绑在一起练，不是后期拼接。

这意味着它”看图”的时候，脑子里想的就是代码结构，不是文字描述。很多多模态模型是先把图转成文字（”这是一个蓝色按钮，位于页面右上角”），再让语言模型根据文字写代码。GLM-5V-Turbo 跳过了这一步，直接从像素到代码。

这也是为什么它在 Design2Code 上能甩开 Opus 4.6 那么多——它理解的是”这个按钮应该用什么 CSS 实现”，而不是”这个按钮是蓝色的”。

第二，它用了 30 多个任务一起训，避免了”顾此失彼”。

多模态模型有个经典问题：加了视觉能力，文本能力就掉。智谱的做法是在强化学习阶段，同时优化视觉理解、代码生成、逻辑推理、工具调用这一堆任务。模型不能只在某一项上刷分，得在所有任务上都过关。

从数据看，这个策略确实有效——GLM-5V-Turbo 的纯文本 Coding 能力跟纯文本版基本持平，没有明显退化。

第三，它给 Agent 加了”眼睛”和”手”。

除了看图写代码，GLM-5V-Turbo 还支持画框（在图像上标注元素）、截图、读网页这些多模态工具。这让它能完成”看懂界面 → 定位元素 → 执行操作”的完整闭环。

这个能力在 GUI 自动化场景下特别有用。比如你让它”打开某个网站，找到登录按钮，填写表单”，它能自己看着屏幕一步步操作，不需要你提前告诉它按钮在哪。

官方案例看着挺炫，但我有几个疑问

PDF 文档解读：准确度是个问号

官方案例里，有一个是把 NVIDIA 2026 财年第一季度 10-Q 财报扔给模型，让它生成中文财务简报。模型输出了包含营收、利润、毛利率、EPS 等关键数据的结构化报告。

我看了一下输出，格式确实工整。但数据提取的准确度我没法验证——这种场景最怕的就是模型看漏了关键数字，或者理解错了表格结构。如果你要用在正式场合，建议人工再核一遍。

另一个案例是把 40 页的 GLM-5 论文 PDF 转成微信公众号风格的宣传文案。模型自动从原文中定位和截取关键图表，嵌入到合适的位置。这个我觉得靠谱一些——因为公众号文案对准确度要求没那么高，主要是排版和可读性。

PDF-to-WEB / PDF-to-PPT：适合快速原型

智谱把这两个能力做成了官方 Skill。

PDF-to-WEB 是把论文或报告转成单页学术网站。用 BERT 论文和 GLM-5 论文做的实测，渲染结果的完成度确实不错。但我估计细节还是得手工调——字体、间距、响应式布局这些，AI 很难一次做到位。

PDF-to-PPT 则是把文档转成多页 HTML 演示文稿。比如用阿里巴巴的近期动态做了一个 14 页的分析 PPT。这个场景我觉得挺实用的——如果你需要快速做一个汇报 PPT，让模型先搭个框架，你再调整内容和排版，能省不少时间。

多模态 Deep Research：看起来很强，但成本呢？

案例一：「搜集小米汽车相关图片，输出图文交错的专题报告」。模型通过约 50 轮网络搜索，从各个渠道获取了车型图片、产线照片，输出了一份结构化报告。

50 轮搜索，这 token 消耗得有点猛。如果你只是想快速了解一个话题，这个成本可能不划算。但如果你需要一份完整的研究报告，而且愿意为此付费，那确实能省很多人工时间。

案例二：「结合阿里巴巴的近期动态和季度财报，仿照麦肯锡风格，生成专业 PPT」。这个我觉得更适合咨询公司或者投资机构——他们本来就需要大量这种研究报告，用 AI 来加速是合理的。

Benchmark 数据：多模态场景领先，纯文本有差距

先看多模态相关的指标。对比对象是 Kimi K2.5 和 Claude Opus 4.6。

Benchmark	GLM-5V-Turbo	Kimi K2.5	Opus 4.6
Design2Code	94.8	-	77.3
ImageMining	82.4	79.1	81.2
BrowseComp-VL	78.5	72.3	75.1
MMSearch	71.2	68.4	69.8
AndroidWorld	45.3	41.2	43.7

在多模态 Coding 和 GUI Agent 相关的测试里，GLM-5V-Turbo 基本都是最高分。

再看纯文本 Coding 和 Agent 任务：

Benchmark	GLM-5V-Turbo	GLM-5-Turbo	Opus 4.6
CC-Backend	22.8	20.5	26.9
CC-Frontend	68.4	69.4	75.9
CC-Repo-Exploration	72.2	68.9	74.4
PinchBench	42.1	43.5	48.3
ClawEval	38.7	39.2	44.6

纯文本 Coding 上，Opus 4.6 全面领先。但 GLM-5V-Turbo 跟纯文本版的 GLM-5-Turbo 相比，没有明显退化，个别项还略有提升。

定价和可用性

GLM-5V-Turbo 的定价是：

输入：$1.20 / 百万 tokens
输出：$4.00 / 百万 tokens

对比 Claude Opus 4.6（输入 $15 / 百万 tokens，输出 $75 / 百万 tokens），GLM-5V-Turbo 的价格是 Opus 的 1/10 左右。

如果你主要用多模态 Coding 场景（截图转代码、设计稿还原、GUI 自动化），GLM-5V-Turbo 的性价比很高。

目前可以通过以下方式使用：

智谱 AI 开放平台（https://open.bigmodel.cn）
OpenRouter（https://openrouter.ai）
集成到 Claude Code、OpenClaw 等 Agent 框架

我的使用建议：别盲目跟风

看完这些数据和案例，我的判断是：GLM-5V-Turbo 是一个”场景特化”的模型，不是万能工具。

如果你是前端，手里有一堆设计稿要还原，GLM-5V-Turbo 值得试试——至少能帮你搭个框架，省掉重复劳动。但别指望它一次就写对所有细节，尤其是复杂交互和边界情况，还是得你自己调。

如果你在做 GUI 自动化（浏览器操作、App 测试），这模型的视觉理解能力确实有用。它能看着屏幕找元素、判断状态，比纯文本 Agent 灵活很多。

如果你需要处理大量 PDF 文档（财报、论文、合同），可以用它来做初步提取和整理。但涉及关键数据的场景，一定要人工复核——AI 看错表格、漏掉数字的概率不是零。

如果你是后端开发者，或者主要做深度推理任务，老实说，这模型对你帮助不大。Opus 4.6 在纯文本 Coding 上全面领先，而且上下文窗口是 1M（GLM-5V-Turbo 只有 200K）。

如果你预算有限，又刚好在多模态 Coding 场景，GLM-5V-Turbo 的性价比确实高——价格是 Opus 的 1/10，多模态能力还更强。但如果你需要的是全面的编程能力，还是得看 Opus。

最后说几句掏心窝的

GLM-5V-Turbo 的发布，让我看到了一个趋势：多模态模型的竞争，正在从”谁更全能”变成”谁在特定场景下更好用”。

以前大家都在卷”谁的多模态理解更强”，恨不得一个模型包打天下。现在开始有人选赛道了——GLM-5V-Turbo 选了”视觉编程”，把资源集中在 Design2Code、GUI Agent、文档理解这几个方向上，打出了差异化。

从 Benchmark 数据看，这个策略确实有效。它在多模态 Coding 场景下领先，但在纯文本 Coding 上跟 Opus 4.6 还有差距。这不是缺陷，这是选择。

说句可能得罪人的话：如果你还在纠结”哪个模型最强”，你可能问错了问题。 真正该问的是：”我的工作场景是什么？哪个模型在这个场景下最好用？”

GLM-5V-Turbo 在”看图写代码”这件事上确实做得不错。但如果你的工作主要是后端开发、深度推理，它不是最优解。

工具没有绝对的好坏，只有适不适合你的场景。

你在用多模态模型吗？有没有遇到过”看图写代码”的需求？或者你觉得 GLM-5V-Turbo 还能用在哪些场景？评论区聊聊，我想看看大家的实际需求。