丢张图就能复刻:GLM-5V-Turbo视觉Coding实测

原创 花叔 花叔 2026-04-03 07:09

原文地址: https://mp.weixin.qq.com/s/ikxhbHE7R_i2KOMgEsFwzA

互动数据

  • 阅读:9385
  • 点赞:75
  • 转发:378
  • 喜欢:32
  • 留言:15

用龙虾干活的朋友应该都遇到过这种情况:你想分享一张截图让它帮你分析,或者发张设计稿让它参考着写代码,结果发现——它是个瞎子。

你只能用文字把图片或者你脑子里想呈现的东西描述一遍。「左边有个蓝色卡片,右边是柱状图,标题用的粗体白字…」写了半天,它理解的和你看到的还是两回事。

智谱刚发布了GLM-5V-Turbo。和之前的GLM-5-Turbo最大的区别就一个字:能看了。

而且挺有趣的是,5V-Turbo定位不是一个独立的视觉理解模型,而是Agent基座(我知道这个表达很有AI感,但我真特么是手写的)。看完不是目的,动手才是。看懂截图之后能调用工具、写代码、执行、验证结果,整个链路跑通。

我之前一直在用GLM系列模型做Claude Code的主替模型之一。glm-4.7的时候就觉得还挺不错,能连续执行一个小时以上的任务,管理多个子agent批量执行也没问题。但纯文本模型始终有个绕不过去的短板:遇到需要「看」的任务就抓瞎。这次5V加了原生视觉能力,我第一时间想试试它在实际Agent工作流里到底能补上多少。

Benchmark:看不懂?让5V-Turbo帮你重新设计

说实话,现在各家发的Benchmark表我已经越来越看不懂了。Design2Code、BrowseComp-VL、ClawEval Pass³,这些到底在衡量什么?二十行数字看完也不知道该得出什么结论。

正好拿来当第一个测试。把官方的两张Benchmark截图直接扔给AutoClaw里的5V-Turbo:

官方Benchmark表1

官方Benchmark表2

帮我用经济学人风格去重构这两张图表的设计。视觉设计上更符合我的风格和审美;给图表加上标题;交互式图表;左侧很多指标不太好理解,每行加一句话解释帮助普通用户理解;最最最重要的,读取和复刻出来的图表数据一定要100%准确。

19个指标、3-4个模型、超过60个数值,5V-Turbo全部读对了。数据我逐个核对过,零错误。

更有意思的是它自己提炼的结论:「看图的事,交给GLM-5V;写代码的事,Claude仍是标杆。」

截屏2026-04-02 11.25.20

12/19的最佳成绩属于5V-Turbo(多模态+ToolUse为主),9/19属于Claude Opus 4.6(代码+Agent为主)。

然后是四组可视化。终于能看懂每个指标在说什么了:

视觉理解全面领先。雷达图里5V-Turbo的红色轮廓几乎包住了其他两个模型。Design2Code 94.8(网页截图→前端代码)、BrowseComp-VL 51.9(视觉网页浏览与操作)、V* 89.0(综合视觉理解)。

桌面不如人,手机遥遥领先。GUI Agent三个平台的结果挺有意思:OSWorld(macOS桌面)三家接近,Claude 72.2略胜;AndroidWorld(手机App操控)5V-Turbo 75.7,领先Kimi 32个百分点;WebVoyager(浏览器导航)88.5,也是最高。

纯代码:Claude的地盘,但差距不大。后端、前端、代码库探索三项Claude都领先,5V-Turbo和纯文本版GLM-5-Turbo基本持平。美团内测说「原生多模态能力的引入并未削弱其编程逻辑」,我自己测下来也是这个感受。截屏2026-04-02 11.25.59Agent编程:差距最大的战场。PinchBench(多轮编辑代码)、ClawEval(三次尝试内通过率)、ZClawBench(智谱自研综合基准),Claude Opus 4.6每项都是最高分,5V-Turbo排第二。

最后两张数据表,每个指标带一句话中文解释。Design2Code下面写着「网页截图→前端代码」,ClawEval Pass³下面写着「三次尝试内通过率」。这种处理对普通读者友好多了。

截屏2026-04-02 11.26.29

👇代码与Agent编程数据

截屏2026-04-02 11.26.43

接入教程

三种接入方式,都不复杂。

AutoClaw(智谱出品的澳龙)

最简单的方式。AutoClaw已经内置了GLM-5V-Turbo,在底部模型选择器里直接切换就行,消耗AutoClaw积分即可使用,不需要额外配置API。

如果你想用自己的API key(比如有独立的智谱账号额度),也可以走自定义模型:设置 → 模型与API → 添加自定义模型,服务商选智谱,模型ID填 glm-5v-turbo,Base URL填:https://open.bigmodel.cn/api/paas/v4

AutoClaw内置GLM-5V-Turbo

OpenClaw

配置方式类似AutoClaw的自定义模型接入,其实我很建议你直接把官方接入文档丢给Claude Code或者龙虾,让他们自己搞定。 GLM-5V-Turbo官方接入文档:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

Claude Code

在 ~/.claude/settings.json 里配置:

{  "env": {    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-5v-turbo",    "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5v-turbo",    "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5v-turbo",    "ANTHROPIC_AUTH_TOKEN": "你的智谱API Key",    "ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/anthropic",    "API_TIMEOUT_MS": "3000000",    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1  }}

重启命令行窗口,输入 /status 确认模型切换成功。也可以在对话中用 /model glm-5v-turbo 临时切换。

PPT截图复刻

最直观的场景:给5V-Turbo一张PPT截图,让它直接输出HTML代码复刻。

我用了一张「AI Agent 2026趋势报告」的幻灯片做测试,深色背景、左侧标题加三个要点、右侧柱状图表,很典型的商务PPT风格。

分析这张PPT的设计,输出HTML代码复刻它。

PPT原版vs复刻对比

它不光把整体布局还原了(左文右图、深色背景、红色强调色),连图表里的柱状图颜色渐变方向都对了。文字层级也清晰:左上角的小标签、大标题、三个带编号的要点、底部品牌名,位置和大小基本一致。OCR零错误,所有数字、中英文、标点都识别对了。

这个场景很实用。你看到一个好看的PPT模板,想用类似的风格但不想从零做。截个图扔给5V-Turbo,输出HTML版本,在这个基础上改内容就行。

封面风格迁移

作为B站UP主,我经常需要设计视频封面。以前想参考别人的封面风格,只能靠肉眼看、凭感觉模仿。

5V-Turbo能做的不只是「描述一下」,它能把视觉分析直接变成AI生图的prompt。

我拿了一张B站科技区常见的封面做测试:

原版封面

暗黑代码背景、大字标题配描边、右下角chibi角色。让5V-Turbo分析设计要素,提取出配色方案、字体风格、构图比例、角色特征,然后我基于这些参数写了一段中文prompt给AI生图,内容改成「GLM-5V 视觉革命」,角色换成戴眼镜的男生:

AI生成的封面

暗色代码背景的bokeh光效、白→蓝渐变英文标题、金黄色描边中文「视觉革命」、紫发戴圆框眼镜的chibi角色双手捧脸的惊讶表情。文字零错误,风格几乎1:1还原

5V-Turbo在这个链路里扮演的角色算是设计翻译官:它把一张图片里的视觉信息拆解成了可描述的参数,让你不需要懂设计也能精确地告诉生图模型你要什么。

财报桑基图批量复刻

前面两个场景是单张图。这次来个更有挑战性的:一整份PDF文档里的复杂图表

我从庄明浩老师那找了一份App Economy Insights出品的「How They Make Money」。40多MB的PDF,62页,里面全是各大公司的财报桑基图(Sankey diagram)。这种图的信息密度很高:一张里面20+个数据节点,包含金额、同比变化、利润率、占营收比例,左边业务板块汇入总营收,右边分流到毛利润、成本、运营费用、净利润。截屏2026-04-02 12.51.31

我直接把整个PDF扔给AutoClaw里的5V-Turbo,就一句话:

帮我去读取并且复刻下这个PDF中耐克那一页的财报页面,我们把主要内容翻译成中文,样式尽量维持和原来的一致

注意这个任务的难度:一个40MB、62页的PDF,我没告诉它耐克在第几页,也没截图,就给了个文件让它自己找。

接下来的过程挺能体现Agent能力的。5V-Turbo发现PDF有40多MB超过了工具限制,就自动换了命令行工具处理;然后它开始逐页翻阅62页PDF寻找耐克的那一页,从第34页一路翻到第52页没找到,又折回去最终在第7页定位到了;提取高清图片后读取所有数据,最后生成了完整的HTML复刻。

整个过程我没有做任何干预,它自己处理了「文件太大→换工具」「找不到→继续翻」这些中间问题。这就是Agent基座和普通视觉模型的区别:不只是看懂,还能在遇到障碍时自主调整策略。

耐克原版桑基图

GLM-5v-turbo复刻的版本👇

image

复刻程度谈不上100%,但想想它做了什么:从一个40MB、62页的PDF里自己翻到目标页面,看懂一张包含20多个数据节点的复杂桑基图,把所有数据提取出来,然后生成一个完整的HTML页面还原了图表结构和样式。输出的HTML直接用浏览器打开就能看到效果,每个数字都可编辑

我觉得至少以后读论文之类的,英文图表都完全可以让龙虾先去中文化一波,会比你直接用翻译API强不少。

写在最后

5V-Turbo还配了一组官方Skills:PDF-to-WEB、PDF-to-PPT、Web-Replication、PRD-to-App,都是需要模型看懂视觉内容然后输出代码的场景,感兴趣的可以去 ClawHub 搜索下载。 GLM官方Skills合集:https://clawhub.ai/jaredforreal/glm-master-skill

说回来,5V-Turbo值不值得切换?

如果你在用龙虾,而且工作流里有「看图→写代码」的需求,我觉得非常值得。之前遇到需要看的场景只能靠文字描述或者外挂OCR,现在模型原生就能看懂,省掉了中间环节。

它最适合两类任务:多模态Coding(发截图/设计稿直接输出前端代码)和视觉Agent(龙虾看懂界面后自主操作)。本质上就是给你的AI Agent装了一双眼睛。

接入方式:智谱开放平台、Z.ai、Coding Plan均可使用。AutoClaw直接内置了,OpenClaw和Claude Code改一下配置就行,前面有详细教程。