丢张图就能复刻：GLM-5V-Turbo视觉Coding实测

原创花叔花叔 2026-04-03 07:09

原文地址: https://mp.weixin.qq.com/s/ikxhbHE7R_i2KOMgEsFwzA

互动数据

阅读：9385
点赞：75
转发：378
喜欢：32
留言：15

用龙虾干活的朋友应该都遇到过这种情况：你想分享一张截图让它帮你分析，或者发张设计稿让它参考着写代码，结果发现——它是个瞎子。

你只能用文字把图片或者你脑子里想呈现的东西描述一遍。「左边有个蓝色卡片，右边是柱状图，标题用的粗体白字…」写了半天，它理解的和你看到的还是两回事。

智谱刚发布了GLM-5V-Turbo。和之前的GLM-5-Turbo最大的区别就一个字：能看了。

而且挺有趣的是，5V-Turbo定位不是一个独立的视觉理解模型，而是Agent基座（我知道这个表达很有AI感，但我真特么是手写的）。看完不是目的，动手才是。看懂截图之后能调用工具、写代码、执行、验证结果，整个链路跑通。

我之前一直在用GLM系列模型做Claude Code的主替模型之一。glm-4.7的时候就觉得还挺不错，能连续执行一个小时以上的任务，管理多个子agent批量执行也没问题。但纯文本模型始终有个绕不过去的短板：遇到需要「看」的任务就抓瞎。这次5V加了原生视觉能力，我第一时间想试试它在实际Agent工作流里到底能补上多少。

Benchmark：看不懂？让5V-Turbo帮你重新设计

说实话，现在各家发的Benchmark表我已经越来越看不懂了。Design2Code、BrowseComp-VL、ClawEval Pass³，这些到底在衡量什么？二十行数字看完也不知道该得出什么结论。

正好拿来当第一个测试。把官方的两张Benchmark截图直接扔给AutoClaw里的5V-Turbo：

官方Benchmark表1

官方Benchmark表2

帮我用经济学人风格去重构这两张图表的设计。视觉设计上更符合我的风格和审美；给图表加上标题；交互式图表；左侧很多指标不太好理解，每行加一句话解释帮助普通用户理解；最最最重要的，读取和复刻出来的图表数据一定要100%准确。

19个指标、3-4个模型、超过60个数值，5V-Turbo全部读对了。数据我逐个核对过，零错误。

更有意思的是它自己提炼的结论：「看图的事，交给GLM-5V；写代码的事，Claude仍是标杆。」

截屏2026-04-02 11.25.20

12/19的最佳成绩属于5V-Turbo（多模态+ToolUse为主），9/19属于Claude Opus 4.6（代码+Agent为主）。

然后是四组可视化。终于能看懂每个指标在说什么了：

视觉理解全面领先。雷达图里5V-Turbo的红色轮廓几乎包住了其他两个模型。Design2Code 94.8（网页截图→前端代码）、BrowseComp-VL 51.9（视觉网页浏览与操作）、V* 89.0（综合视觉理解）。

桌面不如人，手机遥遥领先。GUI Agent三个平台的结果挺有意思：OSWorld（macOS桌面）三家接近，Claude 72.2略胜；AndroidWorld（手机App操控）5V-Turbo 75.7，领先Kimi 32个百分点；WebVoyager（浏览器导航）88.5，也是最高。

纯代码：Claude的地盘，但差距不大。后端、前端、代码库探索三项Claude都领先，5V-Turbo和纯文本版GLM-5-Turbo基本持平。美团内测说「原生多模态能力的引入并未削弱其编程逻辑」，我自己测下来也是这个感受。截屏2026-04-02 11.25.59 Agent编程：差距最大的战场。PinchBench（多轮编辑代码）、ClawEval（三次尝试内通过率）、ZClawBench（智谱自研综合基准），Claude Opus 4.6每项都是最高分，5V-Turbo排第二。

最后两张数据表，每个指标带一句话中文解释。Design2Code下面写着「网页截图→前端代码」，ClawEval Pass³下面写着「三次尝试内通过率」。这种处理对普通读者友好多了。

截屏2026-04-02 11.26.29

👇代码与Agent编程数据

截屏2026-04-02 11.26.43

接入教程

三种接入方式，都不复杂。

AutoClaw（智谱出品的澳龙）

最简单的方式。AutoClaw已经内置了GLM-5V-Turbo，在底部模型选择器里直接切换就行，消耗AutoClaw积分即可使用，不需要额外配置API。

如果你想用自己的API key（比如有独立的智谱账号额度），也可以走自定义模型：设置 → 模型与API → 添加自定义模型，服务商选智谱，模型ID填 glm-5v-turbo，Base URL填：https://open.bigmodel.cn/api/paas/v4

AutoClaw内置GLM-5V-Turbo

OpenClaw

配置方式类似AutoClaw的自定义模型接入，其实我很建议你直接把官方接入文档丢给Claude Code或者龙虾，让他们自己搞定。 GLM-5V-Turbo官方接入文档：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

Claude Code

在 ~/.claude/settings.json 里配置：

{  "env": {    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-5v-turbo",    "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5v-turbo",    "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5v-turbo",    "ANTHROPIC_AUTH_TOKEN": "你的智谱API Key",    "ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/anthropic",    "API_TIMEOUT_MS": "3000000",    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1  }}

重启命令行窗口，输入 /status 确认模型切换成功。也可以在对话中用 /model glm-5v-turbo 临时切换。

PPT截图复刻

最直观的场景：给5V-Turbo一张PPT截图，让它直接输出HTML代码复刻。

我用了一张「AI Agent 2026趋势报告」的幻灯片做测试，深色背景、左侧标题加三个要点、右侧柱状图表，很典型的商务PPT风格。

分析这张PPT的设计，输出HTML代码复刻它。

PPT原版vs复刻对比

它不光把整体布局还原了（左文右图、深色背景、红色强调色），连图表里的柱状图颜色渐变方向都对了。文字层级也清晰：左上角的小标签、大标题、三个带编号的要点、底部品牌名，位置和大小基本一致。OCR零错误，所有数字、中英文、标点都识别对了。

这个场景很实用。你看到一个好看的PPT模板，想用类似的风格但不想从零做。截个图扔给5V-Turbo，输出HTML版本，在这个基础上改内容就行。

封面风格迁移

作为B站UP主，我经常需要设计视频封面。以前想参考别人的封面风格，只能靠肉眼看、凭感觉模仿。

5V-Turbo能做的不只是「描述一下」，它能把视觉分析直接变成AI生图的prompt。

我拿了一张B站科技区常见的封面做测试：

原版封面

暗黑代码背景、大字标题配描边、右下角chibi角色。让5V-Turbo分析设计要素，提取出配色方案、字体风格、构图比例、角色特征，然后我基于这些参数写了一段中文prompt给AI生图，内容改成「GLM-5V 视觉革命」，角色换成戴眼镜的男生：

AI生成的封面

暗色代码背景的bokeh光效、白→蓝渐变英文标题、金黄色描边中文「视觉革命」、紫发戴圆框眼镜的chibi角色双手捧脸的惊讶表情。文字零错误，风格几乎1:1还原。

5V-Turbo在这个链路里扮演的角色算是设计翻译官：它把一张图片里的视觉信息拆解成了可描述的参数，让你不需要懂设计也能精确地告诉生图模型你要什么。

财报桑基图批量复刻

前面两个场景是单张图。这次来个更有挑战性的：一整份PDF文档里的复杂图表。

我从庄明浩老师那找了一份App Economy Insights出品的「How They Make Money」。40多MB的PDF，62页，里面全是各大公司的财报桑基图（Sankey diagram）。这种图的信息密度很高：一张里面20+个数据节点，包含金额、同比变化、利润率、占营收比例，左边业务板块汇入总营收，右边分流到毛利润、成本、运营费用、净利润。截屏2026-04-02 12.51.31

我直接把整个PDF扔给AutoClaw里的5V-Turbo，就一句话：

帮我去读取并且复刻下这个PDF中耐克那一页的财报页面，我们把主要内容翻译成中文，样式尽量维持和原来的一致

注意这个任务的难度：一个40MB、62页的PDF，我没告诉它耐克在第几页，也没截图，就给了个文件让它自己找。

接下来的过程挺能体现Agent能力的。5V-Turbo发现PDF有40多MB超过了工具限制，就自动换了命令行工具处理；然后它开始逐页翻阅62页PDF寻找耐克的那一页，从第34页一路翻到第52页没找到，又折回去最终在第7页定位到了；提取高清图片后读取所有数据，最后生成了完整的HTML复刻。

整个过程我没有做任何干预，它自己处理了「文件太大→换工具」「找不到→继续翻」这些中间问题。这就是Agent基座和普通视觉模型的区别：不只是看懂，还能在遇到障碍时自主调整策略。

耐克原版桑基图

GLM-5v-turbo复刻的版本👇

复刻程度谈不上100%，但想想它做了什么：从一个40MB、62页的PDF里自己翻到目标页面，看懂一张包含20多个数据节点的复杂桑基图，把所有数据提取出来，然后生成一个完整的HTML页面还原了图表结构和样式。输出的HTML直接用浏览器打开就能看到效果，每个数字都可编辑。

我觉得至少以后读论文之类的，英文图表都完全可以让龙虾先去中文化一波，会比你直接用翻译API强不少。

写在最后

5V-Turbo还配了一组官方Skills：PDF-to-WEB、PDF-to-PPT、Web-Replication、PRD-to-App，都是需要模型看懂视觉内容然后输出代码的场景，感兴趣的可以去 ClawHub 搜索下载。 GLM官方Skills合集：https://clawhub.ai/jaredforreal/glm-master-skill

说回来，5V-Turbo值不值得切换？

如果你在用龙虾，而且工作流里有「看图→写代码」的需求，我觉得非常值得。之前遇到需要看的场景只能靠文字描述或者外挂OCR，现在模型原生就能看懂，省掉了中间环节。

它最适合两类任务：多模态Coding（发截图/设计稿直接输出前端代码）和视觉Agent（龙虾看懂界面后自主操作）。本质上就是给你的AI Agent装了一双眼睛。

接入方式：智谱开放平台、Z.ai、Coding Plan均可使用。AutoClaw直接内置了，OpenClaw和Claude Code改一下配置就行，前面有详细教程。

逸尘的AI知识库

探索

丢张图就能复刻_GLM_5V_Turbo视觉Coding实测