DeepSeek视觉原语论文:当所有人在堆图像分辨率时,它在堆「指代精度」!
原创 花叔 花叔 2026-04-30 20:56 北京
互动数据
- 阅读:7152
- 点赞:204
- 转发:407
- 喜欢:62
- 留言:27
超长预警,这篇文章总字数9000+,预计阅读时长20分钟。如果你觉得太长读不下去的话,不用喊元宝了,这是最核心的四条总结:
1、DeepSeek今天(4月30日)发了多模态论文 Thinking with Visual Primitives,离 V4 论文整 6 天。核心是「视觉原语」:让模型一边推理一边输出坐标,把「点」和「边界框」当作思考的最小单元,相当于让 AI 一边想一边「用手指着图说话」
2、DeepSeek是七大 coding agent 玩家里最后一个把视觉接入主力产品的旗舰(OpenAI、Anthropic、Qwen、Kimi、GLM 都比它早),但补课方式反共识:主流派在堆图像分辨率,DeepSeek 在堆指代精度
3、效率夸张到离谱。一张 800×800 图,Claude-Sonnet-4.6 要 ~870 个 KV cache 条目,Gemini-3-Flash 要 ~1100 个,DeepSeek 这个新模型只要 ~90 个。整体压缩比 7056 倍,平均分还小幅领先所有 frontier 模型
4、最猛的成绩不在常规 VQA。在拓扑推理(迷宫导航 / 路径追踪)上 DeepSeek 领先 frontier 模型 16 到 26 个百分点。论文原话:「所有 frontier 模型在拓扑推理任务上均表现欠佳」。一句话礼貌地踩了所有人
说起来,赶在五一长假之前丢个重磅论文,这风格还真挺特么DeepSeek的,熟悉的味道又回来了。以及,这次内容真的太长了,建议你可以先收藏了,假期里无聊的时候慢慢读,我这五一期间尽量…尽量不卷了,不给各位增加阅读负担。
6天前的预言兑现了
时间线是这样的。
4月24日,DeepSeek发了V4论文,58页。我那篇解读里写过一段判断:
OCR 2 的视觉因果流也没进 V4,但多模态被明确写进 V5 的方向(原文:incorporating multimodal capabilities)。所以下一代 DeepSeek 大概率会是这样的轮廓:原生多模态(OCR 2 这一脉的延伸)、引入某种可扩展的查找式记忆、进一步降低延迟、更长的 long-horizon multi-round agentic 能力。
写这段话的时候我以为离 V5 还远。结果 4 月 29 日 DeepSeek App 开始灰度内测识图模式,4 月 30 日,也就是今天,论文 Thinking with Visual Primitives 公开。中间隔了 6 天。
「论文先铺路,模型后亮相」,这是我在 V4 解读里总结过的 DeepSeek 节奏。这次只不过把节奏感压缩到了 6 天。
按照他们一贯的风格,多模态版的 V4 大概率会以「升级版 V4-Flash」或「V5 的预热」形式出现,我猜不会太晚。
为什么 coding agent 必须有视觉
先说一个被忽略的事实:视觉理解对 coding agent 来说,已经是「必须」而非「锦上添花」。
这个判断不是我拍脑袋来的。我把七大主流 coding 玩家的视觉能力时间线拉了一下:
-
OpenAI:2023 年 9 月 GPT-4V 公开。今年 4 月 24 日 GPT-5.5 做成原生多模态单架构,文本图片视频音频一起处理
-
Google:Gemini 从 2023 年 12 月初代发布起就主打 natively multimodal,DeepMind 出身让他们从一开始就在走训练世界模型的节奏(Veo、Genie 这些都是这条线上的),论文里对标的 Gemini-3-Flash 也是这一脉
-
Anthropic:2024 年 3 月 Claude 3 全系带视觉,10 月推出 Computer Use,是第一个能直接看屏幕操作电脑的前沿模型。今年的 Opus 4.7 把图片内部分辨率从 1568px 拉到 2576px,文档里说就是为了读 dense 截图和复杂图表
-
Qwen:2025 年 9 月 Qwen3-VL-235B 旗舰开源
-
Kimi:2026 年 1 月 K2.5 原生多模态,主打截图直接生成前端代码这类场景
-
智谱 GLM:2026 年 4 月初发 GLM-5V-Turbo,自己定义为原生多模态 Coding 基座模型
-
DeepSeek:今天,2026 年 4 月 30 日
DeepSeek 是七家里最后一个把视觉接入主力对话产品的旗舰。比 GLM-5V-Turbo 晚 28 天,比 Kimi K2.5 晚 3 个月,比 Anthropic 晚两年,比 Gemini 晚两年半。
为什么所有家都在做?因为 coding agent 的工作场景里,纯文本已经不够用了。
我自己写代码的时候经常会发生这种事:截一张前端页面给 AI,让它判断哪里布局崩了;截一张报错给 AI,让它告诉我是不是网络问题;甚至有时候我让它读一张设计稿,直接把组件代码写出来。这些任务用文字描述根本说不清。「左边那个按钮的右边有个图标,图标右边那个文字框」,描述完图早画好了。
Anthropic 自己在 Agent SDK 文档里有一句话挺直白:「When using an agent to complete visual tasks, like UI generation or testing, visual feedback (in the form of screenshots or renders) can be helpful.」
视觉是 agent 的眼睛。没有眼睛的 agent,做的事情从根上就有限。
所以问题不是「DeepSeek 该不该做多模态」,而是「DeepSeek 凭什么这么晚才做」。
我的看法是:他们一直在等一个更好的方法。
主流派在解决「看得清」,DeepSeek 在解决「指得准」
要理解这次论文真正的创新,得先看清楚学术界这两年在解决什么问题。
主流路径很清晰:让模型「看得更清楚」。
具体做法是高分辨率切割、动态分块。一张图你想让模型看清细节?切成更多 patch 给它,分辨率拉到 4K、8K。代价是图像 token 暴涨,KV cache 跟着暴涨,推理成本水涨船高。Anthropic 给 Opus 4.7 升分辨率到 2576px 就是这条路。
学术界给这种现象起了个名字叫 Perception Gap(感知鸿沟)。意思是模型推理失败是因为没看清,把分辨率拉高就好了。
DeepSeek 这篇论文要怼的,就是这个共识。
他们的论点是:感知再强,指代不准也白搭。这件事被叫做 Reference Gap(指代鸿沟)。
听着有点抽象,我用一个具体场景讲清楚。
假设你看一张球队合影,60 个人三排站着。我让你数:「穿条纹队服、坐前排、不戴帽子的有几个?」
人是怎么解的?你会用手指着图,一个一个数过去。指到第三个的时候你心里默数 3,指到第七个心里默数 7。手指的位置就是你「思考的位置」,数字是边数边在脑子里加的。
如果不让你用手指呢?你必须在脑子里维持一个「我数到哪了」的列表,还要不停记住「这个穿条纹的、坐前排的、没戴帽子的、左数第三个的那个」是哪一个。三个人之后你就乱了。
这就是模型在做密集计数时遇到的事。
主流路径让模型「看得见」每个人长什么样。这是感知。但模型推理的时候只能用「左数第三个穿红衣服的」这种语言来指代,含糊、容易混淆,多步推理之后就崩了。
DeepSeek 论文 abstract 里直接点破了这件事:「The inherent ambiguity of natural language often fails to provide precise, unambiguous pointers to complex spatial layouts, leading to logical collapse in tasks requiring rigorous grounding.」(自然语言固有的模糊性,常常没法对复杂空间布局给出精确无歧义的指代,导致需要严格定位的任务里直接逻辑坍塌。)
看见 ≠ 看清楚 ≠ 说清楚指哪个。 这是三件不同的事,主流路径只解决了前面两件。
视觉原语:让模型一边推理一边「用手指」
DeepSeek 的解法叫 Thinking with Visual Primitives——用视觉原语思考。
这个名字一开始我没看懂。读完论文之后,我觉得最好的翻译是:让模型像人一样,一边思考一边用手指着图说话。
具体怎么做?模型在生成思考过程的时候,不只输出文字,还会输出坐标。坐标有两种格式。
一种叫 bounding box(边界框),写法是这样:
<|ref|>狗<|/ref|><|box|>[[120,340,580,890]]<|/box|>
意思是「这只狗,在图上左上角到右下角这个矩形区域里」。坐标都被归一化到 0-999 的整数。
另一种叫 point(点),写法更简单:
<|point|>[[357,369],[260,372]]<|/point|>
意思是「这个点和那个点」。
这两种为什么都要有?论文给的解释挺有意思。
边界框适合精确定位具体物体,比如一只狗的位置、一辆车的位置,定位准、信息量大、训练时容易有 ground truth。
点适合抽象指代,比如一条运动轨迹、一段路径、一个交叉口的方向选择。这些东西用框框不出来。
举个例子,让模型解一个迷宫,「下一步往左走」用框是表达不了的。但用点就很自然:「我现在在 (357, 369),下一步要走到 (260, 372)」。
更关键的是:这些坐标不是输出在最终答案里的,而是夹在思考过程里的。
我把论文里的一个例子搬过来。
任务:「这张图里有几个宝可梦?」
模型的思考过程长这样(简化版):
我看到桌上展示了各种各样的玩具,让我先识别一下宝可梦角色:
<|ref|>宝可梦<|/ref|><|box|>[[215,483,368,711], [330,180,422,348], [581,403,674,588]...]<|/box|>。我看到左边的皮卡丘,后排的杰尼龟……然后我要排除其他动漫角色:左边的哆啦A梦、中间的路飞、前排的索隆,还有戴红帽子的那个 One Piece 角色,中间穿白衣的角色……都不是宝可梦。
数一下我刚才标记的不同宝可梦角色,共 6 个。
答案:图里有 6 个宝可梦。
注意这个推理过程里坐标是边推理边出现的。它不是先把所有东西都看完再思考,而是「指一个想一下,再指一个再想一下」。指就是想,想就是指。
这就是 DeepSeek 这篇论文的范式转移。
之前学界也有一些工作把 grounding(视觉定位)加进 chain-of-thought,比如 Visual CoT、CogCom、GRIT、VLM-R³、Argus、VGR。但这些工作的 grounding 主要是事后验证:模型先想完,再用框来确认「我刚才说的那个东西确实在这里」。
DeepSeek 是把 grounding 当成思考本身的一部分。论文里两个关键术语点破了这个区别——先前工作把 grounding 当作 post-hoc verification(事后验证机制),DeepSeek 让视觉原语成为 intrinsic medium of thought(思考的内在媒介)。
「思考的媒介」 vs 「验证的证据」。一个是思维语言,一个是脚注。这是两码事。
不堆 token 数,堆指代精度
到这里你大概明白「视觉原语是什么」了。但你可能会问:这个新范式效果好不好?
直接说结论:这次最让我兴奋的是 Figure 1。它对比了几个主流模型处理 800×800 图片时的两个数字,一个是 KV cache 条目数量(越少越省钱),一个是在 7 个 benchmark 上的平均分。
数据是这样:
模型
KV cache 条目
平均分
Gemini-3-Flash
~1100
76.5%
Claude-Sonnet-4.6
~870
65.3%
GPT-5.4
~740
71.1%
Qwen3-VL-235B-A22B
~660
68.1%
Gemma-4-31B
~289
69.7%
DeepSeek(本文)
~90
77.2%
让我把这件事用人话讲一下。
一张 800×800 的截图喂给 Gemini-3-Flash,它的 KV cache 里要塞 1100 个条目。喂给 Claude-Sonnet-4.6 要 870 个。喂给 DeepSeek 这个新模型,只要 90 个。
KV cache 是模型推理时最贵的东西之一。条目少一个量级,意味着同样的硬件可以同时处理近 10 倍的请求,或者把图片分辨率拉得更高。
主流路径在堆 token 数(高分辨率切割),DeepSeek 在堆指代精度。 用比 Claude 少 9 倍、比 Gemini 少 12 倍的 token,做出了小幅领先的平均分。
这才是这篇论文最反共识的一点。
需要诚实说一件事:上表里 Claude 和 Gemini 的 KV 条目数是 DeepSeek 自己估算的,不是 Anthropic 或 Google 官方公布的数字。我去查了 Anthropic 文档,他们给出的图像 token 计算公式是 width × height / 750,800×800 大约是 853 个 token,和论文里的 870 接近,但 token 数不等于 KV cache 条目。所以这个对比图意思是有的,但具体数字别拿去较真。
另外,论文里 DeepSeek 对比的是 GPT-5.4 而不是 4 月 24 日新发的 GPT-5.5。原因可能是论文写的时候 GPT-5.5 还没出,或者 API 评测周期没赶上。
怎么压到这么少的
是怎么压到这么少 token 的?这就要讲 DeepSeek 的视觉编码方案。
整个压缩链路有三步。
第一步,ViT 切块。DeepSeek 自己训了一个叫 DeepSeek-ViT 的视觉编码器,14×14 像素一个 patch。一张 756×756 的图,切出来 2916 个 patch token。这一步和别人差不多。
第二步,3×3 空间压缩。在 ViT 出口处,把每 9 个相邻的 patch token 沿通道维度压缩成 1 个。2916 个直接压成 324 个。这一步是大头。
第三步,Compressed Sparse Attention 再压缩。这是 V4-Flash 自带的机制,把视觉 token 进 LLM 之后存到 KV cache 里时,每 4 个再压成 1 个 KV 条目。324 个变成 81 个。
总压缩比是多少?571,536 像素到 81 个 KV 条目,整体压缩比 7056 倍。
读到这里你可能会想:这么暴力地压,效果不会拉跨吗?
正常情况会的。但这次不会,因为有视觉原语撑着。
我打个比方。
主流路径是这样的:把一本 800 页的书原原本本扛在身上,需要查什么就翻。代价是书重得要死,背着累。
DeepSeek 的路径是另一种:书我可以扔,但我记得每个重要内容在第几页第几行。要查某段,我直接告诉你「第 372 页第二行」。书不在身边,但我能精确指代。
坐标就是「第 372 页第二行」。这是一种比把整本书带在身上轻得多的方式。
最大的差距在拓扑推理:领先 17 个百分点
但是,平均分 77.2 vs 76.5,听起来还是好像没那么夸张。其实最有意思的不在平均分里,在 Table 1 里。
我把这张表拆开看。
计数任务(counting):和 Gemini-3-Flash 互有胜负,DeepSeek 在 Pixmo-Count 和 Finegrained-Counting 上各赢一点,Gemini 在 CountQA 上领先。整体打平。
空间推理 + 通用 VQA(spatial reasoning + general VQA):6 个 benchmark,DeepSeek 在 4 个上排第一,Gemini-3-Flash 在 2 个上排第一。也基本打平。
拓扑推理(topological reasoning)。这两个 benchmark 上的差距才叫夸张:
-
DS_Maze_Navigation(迷宫导航):DeepSeek 66.9%,Gemini-3-Flash 49.4%,GPT-5.4 50.6%,Claude-Sonnet-4.6 48.9%。DeepSeek 领先第二名 16.3 个百分点。
-
DS_Path_Tracing(路径追踪):DeepSeek 56.7%,GPT-5.4 46.5%,Gemini-3-Flash 41.4%,Claude-Sonnet-4.6 30.6%。DeepSeek 领先第二名 10.2 个百分点。
这两个任务长什么样?
迷宫导航就是字面意义上的迷宫,给你一个起点和一个终点,问能不能走到,能走到的话画出路径。路径追踪是给你一堆缠绕的曲线,每条曲线一端是图标 A,另一端是图标 B,问「皇冠图标」连到的是哪个图标?
这两个任务为什么 frontier 模型集体翻车?因为它们要求模型长时间维持一个空间状态。走迷宫每一步都要记得「我现在在哪、刚才走了哪、还有哪些岔路没探」。路径追踪要求模型在十几个交点处每次都做对的方向判断。
纯文本 CoT 干这个事就是会崩。模型描述「现在我在左下角」,下一步又描述「现在我在中间偏左」。「中间偏左」相对什么?说不清楚。多走几步就乱了。
DeepSeek 用坐标解决这个问题。每一步都是 (x, y),没有歧义。论文里有个迷宫的例子,模型走了 18 步,每一步都是清清楚楚的坐标。这就是「点是思考的最小单元」的含义。
更狠的一句话来自论文自己:
Notably, all frontier models exhibit suboptimal performance on topological reasoning tasks, suggesting that substantial room for improvement remains in the reasoning capabilities of multimodal large language models.
(所有 frontier 模型在拓扑推理任务上都表现欠佳,说明多模态大模型的推理能力还有相当大的提升空间。)
人话版:你们这帮闭源旗舰,在我们这个 benchmark 上都不行。这是 DeepSeek 一贯的姿态,在论文里礼貌地踩一脚,怼得让人想反驳又反驳不动。
训练管线是 5 阶段,不是 3 阶段
文章写到这里,我得说一下最让我意外的一个细节。
这套训练管线展开看,有整整 5 阶段:
-
Pretraining(预训练)
-
Specialized SFT(专家化监督微调)
-
Specialized RL(专家化强化学习)
-
Unified RFT(统一强化微调)
-
On-Policy Distillation(同策略蒸馏)
最后一阶段的 OPD 蒸馏,是整篇论文工程含金量最高的一笔。
我们一步步说。
Pretraining 阶段做的事情:让模型学会「输出视觉原语」这个基础能力。怎么训?爬数据。
DeepSeek 从 HuggingFace 这种平台爬了 97984 个标注了 object detection 或 grounding 的数据集,然后做了两步过滤:
-
第一步语义审核:剔除带乱码代码(「0」「1」这种没意义的标签)、私人实体(「我室友」「ID_Card_1」)、模糊缩写(「OK」「NG」)。剩下 43141 个数据集
-
第二步几何质量审核:剔除漏标超过 50% 的、严重截断的、超大框(占图像 >90% 面积)的。剩下 31701 个数据集
最后做类别平衡采样(每类最多 1000 张图),得到约 4000 万高质量训练样本。预训练消耗的总 token 数是「trillions of multimodal tokens」(数万亿)。
这一步之后,模型已经能输出视觉原语,但不知道怎么把它们用进推理里。所以要进入下一阶段。
Specialized SFT 阶段做的事情:教模型怎么把视觉原语当作思考媒介。
这里有个很巧妙的设计:不是训一个模型,而是训两个。
一个专门训 thinking with grounding(用框思考),另一个专门训 thinking with pointing(用点思考)。论文里给它们起了名字:F_TwG 和 F_TwP。两个分开训。
为什么不合在一起?论文给的解释是「这种分离能在专项数据量不大时避免模式冲突」。我猜实际原因是:用框和用点的思维方式有差异,混在一起训会互相干扰。
Specialized RL 阶段做的事情:用强化学习把这两个专家进一步打磨。
用的算法是 GRPO(V4 论文用的同款)。但奖励设计非常精细,是三层叠的:
-
Format RM:检查输出格式对不对(是否符合 <|ref|>…<|/ref|><|box|>…<|/box|> 这套语法),还会检查有没有重复输出同一个框(防止模型陷入死循环)
-
Quality RM:用一个 LLM 当评委,从 5 个维度打分,包括思考过程冗不冗余、思考和最终答案是否一致、有没有自相矛盾、引用的物体是否真有意义、有没有 reward hacking(模型作弊骗奖励)
-
Accuracy RM:任务特定的精度奖励
举个 Accuracy RM 的例子。计数任务的奖励函数是这样的:
R(ŷ, y) = α · exp(−β · |ŷ−y| / (|y|+1))
α=0.7, β=3。意思是预测值偏离真值越远,奖励指数衰减。没用 0/1 二值奖励是个聪明设计:猜错 1 个还有部分奖励,猜错很多才扣到底。这给模型留了平滑的学习信号。
迷宫任务的奖励更复杂,分成 5 项加权:因果探索进度 + 探索完整性 + 穿墙惩罚 + 路径有效性 + 答案正确性。每一项都是密集信号,让模型每走对一步都拿到奖励。
RL 数据筛选也很讲究。模型对每个样本生成 N 次 rollout,然后分类:
-
Easy(N 次都对)→ 不用学
-
Normal(部分对部分错)→ 只用这部分训练
-
Hard(N 次都错)→ 学不会,跳过
只保留 Normal-Level 数据训练,确保模型每次都能学到东西。这一步之后得到两个真·专家模型:E_TwG 和 E_TwP。
Unified RFT 阶段做的事情:把两个专家合体成一个统一模型。
这一步是用两个专家模型生成 rollout,然后做 SFT。得到统一模型 F。
On-Policy Distillation 阶段做的事情:闭合差距。
这一步是我没想到的。论文坦诚地写:RFT 后的统一模型 F 相比 cold-start 的 F_TwG / F_TwP 已经有了大幅提升,但和专家模型 E_TwG / E_TwP 比起来「a noticeable performance gap remains」(仍然存在明显的差距)。
也就是说,合体之后的模型在每个专项上不如各自的专家。所以最后还要做一道蒸馏。让统一模型 F 同时学习两个专家的输出分布,损失函数是 KL 散度的加权和。
这是一招挺漂亮的工程闭环:先专家化、再合体、合体差了再用蒸馏闭合差距。每一步都不偷懒。
数据是真砸
讲完训练管线,再讲一下冷启动数据的体量。这块是论文里我觉得最让人警醒的部分。
冷启动数据分四个维度:
-
计数:约 10000 样本
-
空间推理 + 通用 VQA:约 9000 样本
-
迷宫导航:460000 样本
-
路径追踪:125000 样本
注意后两个的数量。46 万个迷宫 + 12.5 万条路径追踪,这个体量在「拓扑推理」这种小众任务上是过分的。
为什么这么砸?因为这是 DeepSeek 想证明的事:视觉原语在拓扑推理上有独特优势。要把这件事证清楚,就要在这种任务上做到压倒性领先,让数据说话。
更让我服气的是数据怎么做的。我举两个细节。
迷宫:用 DFS、Prim、Kruskal 三种算法生成可解迷宫,三种拓扑(矩形、同心圆、六边形蜂窝)都做。然后专门做了一批「貌似可解但实际不可解」的对抗迷宫。先生成可解迷宫,故意在中间堵几堵厚墙,让它看起来还能走、实际上走不通。这种对抗样本是用来教模型「不要光看就敢答,要真探索过」。
路径追踪:交错的贝塞尔曲线。每条曲线连一个起点图标到一个终点图标。专门做了一批「全部曲线同色」的版本。如果模型靠颜色作弊(顺着颜色找),同色版会让它失败。强迫模型靠曲率连续性来判断,每个交点上模型必须做出「这条线弯到左边还是右边」的几何判断。
两个细节加起来你会发现:DeepSeek 不是在做能 work 的 demo,是在堵所有可能的捷径。Anti-cheat 设计到这种程度,是想让模型真的学到拓扑推理能力,而不是学到「图像识别小聪明」。
一个隐藏的彩蛋
论文有一段我读了三遍才确认没看错:
Although our post-training data about visual primitives does not include any Chinese corpus, the model is capable of thinking and responding in Chinese, benefiting from the multilingual capabilities inherited from the base model.
(虽然关于视觉原语的后训练数据里没有任何中文语料,但模型依然能用中文思考和回答,这是从基座模型继承下来的多语言能力。)
也就是说,DeepSeek 训这个视觉原语模型时完全没用中文数据,但模型能流畅地用中文做视觉推理。
论文里的 Figure 8 给了三个中文示例:
-
看金门大桥的图,问「这附近有 NBA 球队吗」,模型识别出旧金山,然后回答「金州勇士主场就在这里」
-
看一台咖啡机的图,问「如何制作拿铁」,模型用框圈出蒸汽棒、拿铁按钮、咖啡豆袋,按步骤生成中文操作指南
-
看一张古镇照片,问「这是哪儿」,模型分析木结构和卵石街道,回答「应该是中国云南的古镇(如丽江、沙溪)」
没训中文数据但能中文推理。这件事说明视觉原语这个能力是和语言无关的。坐标就是坐标,(360, 180) 在哪国语言里都是同一个像素位置。基座模型的多语言能力直接接管了语言部分,视觉原语接管了空间推理部分。
这是个很漂亮的解耦。
局限:这模型还做不了什么
论文挺诚实地写了三条局限,我觉得每条都值得说一下。
第一,需要触发词才会启用视觉原语。也就是说模型现在不能自主判断「这道题需不需要用手指」。论文里所有示例的输入都有一个 [Trigger_Placeholder],你必须告诉它「这次需要用视觉原语」,它才会启用。
这是个挺现实的限制。理想状态下模型应该自己判断:复杂数数、空间推理、走迷宫这种任务自动启用视觉原语;问「这是什么品种的狗」这种简单 VQA 用普通模式。现在还做不到。
第二,极细粒度场景下视觉原语精度不够。坐标毕竟是 0-999 整数,对一张 800×800 图来说每个坐标单位代表 0.8 像素。如果你要 pixel-level 的精确定位,比如「第 X 像素那一根头发丝」,这个精度不够。论文说「未来可能要把视觉原语和高分辨率感知方案结合」,也就是该堆分辨率的时候还是要堆。
第三,用 point 解决拓扑推理还有跨场景泛化问题。在论文设计的迷宫和路径追踪上很猛,但换一个全新的拓扑场景能不能泛化,论文自己也没把握。
这三个局限都很真实,没有一条是「我们改改就好」。这是研究的边界,不是工程的不足。
我对这件事的判断
写到最后,我说几个我觉得有意思的判断。
第一,DeepSeek 这次发的是论文 + 灰度,不是模型权重。GitHub 上没有 model file,README 里说这套能力会随下一代基座模型一起发布,不单独开源权重。
这是个很 DeepSeek 的做派。技术先发表,模型不急着开源。论文先铺路,权重后亮相。和当年 mHC、Engram、OCR 2 一样的节奏。
第二,下一代 DeepSeek 大概率原生多模态。我在 V4 解读里预测的「OCR 2 这一脉的延伸」,从这次论文的 reference 看,确实在延伸。但延伸的方向不是 OCR 2 的「视觉因果流」,而是更基础的「视觉原语作为思考媒介」。前者是工程优化,后者是范式转移。
第三,coding agent 视觉的标准被重定义了。之前大家比的是「我的视觉模型能看 4K 图」「我的视觉模型 token 多便宜」。这次 DeepSeek 把比赛维度换了:比的是「我的视觉模型能不能在思考的时候用手指着图说话」。
我觉得这个新维度站得住,原因是:coding agent 真正卡住人的不是看不清细节,是描述不清楚指哪个。一个有视觉原语能力的 agent,处理「这个按钮的下面那个组件」这种任务会比纯视觉理解的 agent 好得多。
第四,最后说一句。DeepSeek 是六大旗舰里最后一个把视觉接入主力产品的,但他们这次是以最贵的方式补课。不是「我也做了一个差不多的视觉模型」,而是「我做了一个全新范式的视觉模型,顺便把基础能力一起补上了」。
这种姿态是 DeepSeek 一直以来的姿态。mHC 不是优化残差连接的参数,是给它加一道只准收缩不准放大的数学护栏;OCR 2 不是改文本编码方式,是把长文本直接压成视觉信号让模型读图。这次也一样,别人在堆图像分辨率,他们在堆指代精度。
反共识不是为了反而反,是相信主流路径里那个被忽略的盲点比表面共识更值钱。 这是我从读了这么多 DeepSeek 论文里学到的最重要的一件事。
V5 什么时候发?我还是不好猜。但 DeepSeek 的节奏已经很清楚:论文先铺路,模型后亮相。这次铺的路是视觉原语,下一个亮相的,应该就是它。
One more thing
如果你读到这里还能保持注意力,那我想再讲一件事,是这次读论文时一个让我安静了好久的瞬间。
论文里有一个例子:模型看一张图,左边是一块切开的水果,纹路斑驳,看起来像一只猫的脸;右边是一只真正的猫,眼神悲伤。问题是:「为什么这张图很搞笑?」
模型的思考过程是这样的:
-
先用框定位左边那块水果(fruit chunk)
-
然后在水果上找出深色斑点(dark spot),位置精确到坐标
-
标注水果上圆形的黑点(circular black spot),这是模拟了猫的瞳孔
-
标注水果底部深色纹理(dark textured nose),这是模拟了猫的鼻子
-
然后切换到右边那只真猫,标注白色的脸(cat’s white face)、绿色的眼睛(green eyes)、粉色的小鼻子(small pink nose)
-
最后总结:「右边那只猫绝望悲伤的表情,被左边水果上随机的纹路完美复刻了。这种相似性正是搞笑的来源。」
我盯着这段思考过程看了很久。
模型在「理解幽默」这件事上,用手指着图,把每一个相似点都标了出来。它指的不是结论,是构成结论的证据。它先看到水果上的「黑点」和真猫的「眼睛」位置对应,再看到水果纹路和真猫鼻子的对应,然后才得出「相似」的结论。
它在做的事情,和你看到这张图时大脑在做的事情,几乎是同一回事。你也不是看一眼就笑出来,你也是先注意到「这块水果中间的黑点像眼睛」,然后才觉得搞笑。
这是我觉得视觉原语最让我有触动的地方。它不只是工程上更高效,它更接近人类认知本身的样子。
「用手指着思考」,本来就是人类做事的方式。我们数数会用手指、走迷宫会用手指、解释路线会用手指、描述设计稿也会用手指。手指是思维的延伸,不是思维之外的辅助。
DeepSeek 这次做的,是把这件事变成了模型能做到的事。
至于这件事最终能跑多远,我不敢说。但起码它指了一个之前被忽略的方向:视觉模型不只要看得清,还要能用手指着说话。
V5 见。