这张信息图，居然是8B开源模型做的？？

原创花叔花叔 2026-04-29 17:16 北京

原文地址: https://mp.weixin.qq.com/s/JHLOB6S-pe3n9OA-h1W5lA

互动数据

阅读：25230
点赞：393
转发：1744
喜欢：207
留言：52

最近，我的女娲.skill 和 Huashu Design 似乎太出圈了。

前者已经分别被腾讯、智谱、Kimi 旗下的龙虾产品作为默认 skill 之一，后者则是听闻很多公司都在研究我那个 skill 的设计逻辑😓

于是呢，我也没少在各个社交平台再去宣传介绍这些 skill 究竟是什么、工作原理如何。尤其是随着图像生成模型能力变强，我挺爱做类似下面这样的信息图来介绍我做的东西。

女娲.skill 的信息图

给你 5 秒钟，猜一下这张图是什么模型做的？

是 GPT-Image-2？

是 Nano Banana 2？

还是 Seedream 5？

…

答案揭晓——其实是商汤这周才开源的一个 8B 多模态模型：SenseNova U1。

我猜很多人对这个模型还相当陌生，所以呢，我们再让它自己来介绍下自己👇

U1 的自我介绍

它叫 SenseNova U1，来自商汤

这个模型昨天刚开源，分两个尺寸，一个是 8B 的 dense 版本，一个是 A3B 的 MoE 版本，协议是 Apache 2.0，inference code 全开。

它背后的架构叫 NEO-Unify。我来尝试简单解释下这个东西。一般主流的多模态模型处理任务的流程有点像请翻译官帮忙：图像先经过一个视觉编码器（Visual Encoder）翻成 token 给模型理解，模型生成的 token 再经过 VAE 翻回像素。U1 把这两个翻译官都辞了，让模型直接读原始像素、直接输出像素，自己学一套近乎无损的视觉表征。

商汤公布的官方分数也挺有意思。8B 这个体量，在图像理解和图像生成两条评测线上都拿到了开源同量级的 SoTA，部分指标接近商业闭源大模型。

U1 图像生成基准

最值得关注的是「信息图」这条专项。文字密度高、排版要求精准，这历来是生图模型的硬骨头。U1 在这个维度上的得分跟 Qwen-Image 2.0、Seedream 4.5 这种大模型基本持平，但延迟显著更低。

U1 在 Infographic 上的性能-速度分布

简单说，同样出一张 2K 信息图，U1 大概只要十几秒，对比 GPT-Image-2 这种闭源大模型的几十秒，单位时间能多出好几倍的产能。

为什么我会想试它

我对多模态生图模型这个赛道的看法，说起来挺简单。

一年前，文生图模型要跑出稳定的中文表现有多难，大家应该都有体感。直到最近，能把这件事真正做对的也只有 OpenAI、Google、字节这少数几家大公司，而且全是闭源大模型。

所以这周看到一个 8B 的开源小模型，敢把「信息图」当主打能力来发布，我是有点意外的。意外到想自己上手试试。

让我更感兴趣的是另一件事。本地能跑的小模型一旦质量上来，它的隐私性、速度、几乎零边际成本，正好能覆盖一些闭源 SaaS 难以触达的场景。

回到我自己。我最在意的是它能不能按我的 prompt 稳定复现风格，比如刚才那张女娲 skill 的 Anthropic 编辑风；以及能不能用合理速度批量出图，我的 agent workflow 里一次任务可能要 10-20 张图，每张多等 30 秒，整个链路就拖死了。

至于本地部署、可微调这些，我自己暂时没刚需。但我接触过的不少行业（医疗、金融、法务）确实非常需要本地能力，他们的素材根本不能上传到云。

这几件事里，前两件 GPT-Image-2 做得不错，后两件它做不到。这不是它的错，闭源 SaaS 本来就不是干这个的。

而 U1 刚好坐在了那个空位上。它在跑分上肯定打不过 GPT-Image-2 的单张极致质量，但它能跑本地、能被改造、还能在十几秒里出一张 2K 信息图。这就够了。

我让它做了什么

理论说完，看东西。

文章开头那张女娲 skill 的图，是我让 U1 做的第三张。我给它的 prompt 写得很具体：「米白底 #faf9f5，炭黑手绘线，赤陶橙 #d97757 强调色，三段式 16:9 横向布局，无 sci-fi 无暗模式……」也就是 Anthropic blog 的那种编辑插画风。它第一次跑就接住了。

然后我又让它做了一张更细颗粒度的「女娲三阶段」工作流图：

U1 做的女娲三阶段图

这种复杂版式 U1 处理得比我预期的稳定。

最近我在跟出版社合作，尝试做新一批带图解示例的橙皮书，所以这阵子比较频繁在测各种生图模型。U1 跑下来，速度和稳定性都比我预想的好。

它真正不一样的地方：图文交错

前面我让 U1 做的都是单张信息图。但它真正不一样的能力，其实是「图文交错」：一次输出里包含多张图和段落正文的连贯混排。

商汤管这个能力叫「带图思考」。模型在推理过程中自动生成中间示意图，把复杂逻辑可视化。这件事 GPT-Image-2、Nano Banana、Seedream 都做不到，它们都是「一次 prompt 出一张图」的单点能力。

举两个官方公布的例子。

「帮我设计几款适合的发型」：用户上传一张自己的照片，U1 不直接给图，而是先做面部特征分析，然后生成多种不同的发型推荐图，每张图旁边配一段为什么适合的解释，最后给一组对比图。

U1 图文交错 · 发型设计

「设计一个建在海南万宁悬崖边的图书馆」：U1 自主构思并生成了四个不同视角的连贯建筑图（外部全景、低角度仰视、高空俯瞰、室内框景），每个视角配一段精准的设计说明，相当于一次给你完整的建筑设计交付。

U1 图文交错 · 悬崖图书馆

这种能力很难在闭源 SaaS 上稳定实现。你得自己写一个 agent，让 LLM 调多次生图 API，再把图和文拼起来。而且人物在多张图之间未必一致。U1 把这件事压到了单模型一次推理里。

我自己也跑了两个测试。一个是给小朋友介绍怎么做飞机的4格漫画《第一次坐飞机》

另一个算是我的真实场景，在尝试给我新书《图解 Agent Skills》做配图。

让我意外的几件事：速度极快，基本是边想边出图；人物和风格的一致性维持得很好；最关键的是——一个 8B 的开源模型同时具备这种程度的思考能力和图像生成能力，这件事老实说我之前没怎么见过。

对我来讲，最实用的场景是写橙皮书：一章里经常需要「概念 → 概念图 → 解释段落 → 对比图 → 总结」这样的混排。以前要在 LLM 和生图 API 之间来回切，现在 U1 一次就能出整页。

它的真实边界

当然，U1 也不是没有短板。

我让它换种风格，做一张「达尔文.skill」的循环结构图。这次要的是技术蓝图风、深色背景、循环箭头加 8 个评分维度环绕。它出来是这样：

有几件事值得说一下。

这张图跟前面女娲那张的 Anthropic 编辑风完全是两套体系。同一个模型能在不同风格之间切换，说明训练语料的数据还挺丰富，这也意味着它更有机会执行不同需求的人物。很多模型有强烈的默认风格倾向，怎么都掰不出来。

文字渲染也挺让我意外。这种环形排列还能基本不出错，挺难得的。我之前用别的模型试过类似layout，文字常常错位。

不过 U1 也确实有少量错字。比如让它写 Karpathy 这个名字，它会写成 Karpthy；让它写「蒸馏」的「馏」，常常写成「漓」。这些都是 prompt 工程可以绕开的小问题，把 Karpathy 改成「卡帕西」、把「蒸馏」改成「提炼」就行。

但这些边界相对都不致命。真正重要的是它让我能用一个 8B 的开源模型，在本地跑出可以直接用的书籍级配图。这件事两个月前我都不敢想。

这个模型适合谁、适合什么场景

那 U1 真正适合谁用？我自己想了下，几个最直接的场景：

自媒体和独立创作者。每天要出文章配图、信息图、海报，U1 的速度让「试 10 个版本选 1 个」变成可行的工作流，试错成本接近零。

有数据敏感性的行业：医疗、金融、法务，或者做内部知识库、内部培训材料的团队。本地部署最大的好处就是内部数据不上云，闭源 API 在这些场景下直接是 deal-breaker。

Agent 长链路场景。一个任务要生成 10-50 张图（教程、报告、绘本、漫画都可能），调 GPT-Image-2 走 API 不仅贵还慢，U1 跑本地几乎零成本，就让这种链路真的能跑通。

商汤自己也提了一嘴，下一步会把 U1 接入「办公小浣熊」。这其实就是上面这些场景的产品化路径。

怎么上手

想试的话，有几个入口：

调用SenseNova U1 Skill：https://github.com/OpenSenseNova/SenseNova-Skills
开源代码：github.com/OpenSenseNova/SenseNova-U1
HuggingFace：huggingface.co/collections/sensenova/sensenova-u1

模型本身 8B，对硬件要求其实不算高。性能稍好一些的本地机器都能跑得动，不需要专业卡。官方文档里说支持 vLLM 和 sglang，已经在用这些工具的同学应该能很快跑起来。

写在最后

最近一年，多模态模型的发布我看了不下三十轮，每一轮都在说自己是 SoTA、是颠覆、是革命。U1 这次没说那么多大词，但它把 Visual Encoder 和 VAE 都砍了。这种敢于重新画路线的事，在已开源的多模态模型里其实不常见。

它现在还有边界，错字会有，复杂图表也不绝对稳定。但它给我的体感是：有些场景，确实从这周开始变得不一样了。以及我们完全可以期待他下一阶段的快速进化。

至少，我下一本橙皮书的配图，可能不再需要走 API 了。

逸尘的AI知识库

探索

这张信息图_居然是8B开源模型做的__