这张信息图,居然是8B开源模型做的??
原创 花叔 花叔 2026-04-29 17:16 北京
互动数据
- 阅读:25230
- 点赞:393
- 转发:1744
- 喜欢:207
- 留言:52
最近,我的女娲.skill 和 Huashu Design 似乎太出圈了。
前者已经分别被腾讯、智谱、Kimi 旗下的龙虾产品作为默认 skill 之一,后者则是听闻很多公司都在研究我那个 skill 的设计逻辑😓
于是呢,我也没少在各个社交平台再去宣传介绍这些 skill 究竟是什么、工作原理如何。尤其是随着图像生成模型能力变强,我挺爱做类似下面这样的信息图来介绍我做的东西。
给你 5 秒钟,猜一下这张图是什么模型做的?
是 GPT-Image-2?
是 Nano Banana 2?
还是 Seedream 5?
…
…
…
答案揭晓——其实是商汤这周才开源的一个 8B 多模态模型:SenseNova U1。
我猜很多人对这个模型还相当陌生,所以呢,我们再让它自己来介绍下自己👇
它叫 SenseNova U1,来自商汤
这个模型昨天刚开源,分两个尺寸,一个是 8B 的 dense 版本,一个是 A3B 的 MoE 版本,协议是 Apache 2.0,inference code 全开。
它背后的架构叫 NEO-Unify。我来尝试简单解释下这个东西。一般主流的多模态模型处理任务的流程有点像请翻译官帮忙:图像先经过一个视觉编码器(Visual Encoder)翻成 token 给模型理解,模型生成的 token 再经过 VAE 翻回像素。U1 把这两个翻译官都辞了,让模型直接读原始像素、直接输出像素,自己学一套近乎无损的视觉表征。
商汤公布的官方分数也挺有意思。8B 这个体量,在图像理解和图像生成两条评测线上都拿到了开源同量级的 SoTA,部分指标接近商业闭源大模型。
最值得关注的是「信息图」这条专项。文字密度高、排版要求精准,这历来是生图模型的硬骨头。U1 在这个维度上的得分跟 Qwen-Image 2.0、Seedream 4.5 这种大模型基本持平,但延迟显著更低。
简单说,同样出一张 2K 信息图,U1 大概只要十几秒,对比 GPT-Image-2 这种闭源大模型的几十秒,单位时间能多出好几倍的产能。
为什么我会想试它
我对多模态生图模型这个赛道的看法,说起来挺简单。
一年前,文生图模型要跑出稳定的中文表现有多难,大家应该都有体感。直到最近,能把这件事真正做对的也只有 OpenAI、Google、字节这少数几家大公司,而且全是闭源大模型。
所以这周看到一个 8B 的开源小模型,敢把「信息图」当主打能力来发布,我是有点意外的。意外到想自己上手试试。
让我更感兴趣的是另一件事。本地能跑的小模型一旦质量上来,它的隐私性、速度、几乎零边际成本,正好能覆盖一些闭源 SaaS 难以触达的场景。
回到我自己。我最在意的是它能不能按我的 prompt 稳定复现风格,比如刚才那张女娲 skill 的 Anthropic 编辑风;以及能不能用合理速度批量出图,我的 agent workflow 里一次任务可能要 10-20 张图,每张多等 30 秒,整个链路就拖死了。
至于本地部署、可微调这些,我自己暂时没刚需。但我接触过的不少行业(医疗、金融、法务)确实非常需要本地能力,他们的素材根本不能上传到云。
这几件事里,前两件 GPT-Image-2 做得不错,后两件它做不到。这不是它的错,闭源 SaaS 本来就不是干这个的。
而 U1 刚好坐在了那个空位上。它在跑分上肯定打不过 GPT-Image-2 的单张极致质量,但它能跑本地、能被改造、还能在十几秒里出一张 2K 信息图。这就够了。
我让它做了什么
理论说完,看东西。
文章开头那张女娲 skill 的图,是我让 U1 做的第三张。我给它的 prompt 写得很具体:「米白底 #faf9f5,炭黑手绘线,赤陶橙 #d97757 强调色,三段式 16:9 横向布局,无 sci-fi 无暗模式……」也就是 Anthropic blog 的那种编辑插画风。它第一次跑就接住了。
然后我又让它做了一张更细颗粒度的「女娲三阶段」工作流图:
这种复杂版式 U1 处理得比我预期的稳定。
最近我在跟出版社合作,尝试做新一批带图解示例的橙皮书,所以这阵子比较频繁在测各种生图模型。U1 跑下来,速度和稳定性都比我预想的好。
它真正不一样的地方:图文交错
前面我让 U1 做的都是单张信息图。但它真正不一样的能力,其实是「图文交错」:一次输出里包含多张图和段落正文的连贯混排。
商汤管这个能力叫「带图思考」。模型在推理过程中自动生成中间示意图,把复杂逻辑可视化。这件事 GPT-Image-2、Nano Banana、Seedream 都做不到,它们都是「一次 prompt 出一张图」的单点能力。
举两个官方公布的例子。
「帮我设计几款适合的发型」:用户上传一张自己的照片,U1 不直接给图,而是先做面部特征分析,然后生成多种不同的发型推荐图,每张图旁边配一段为什么适合的解释,最后给一组对比图。
「设计一个建在海南万宁悬崖边的图书馆」:U1 自主构思并生成了四个不同视角的连贯建筑图(外部全景、低角度仰视、高空俯瞰、室内框景),每个视角配一段精准的设计说明,相当于一次给你完整的建筑设计交付。
这种能力很难在闭源 SaaS 上稳定实现。你得自己写一个 agent,让 LLM 调多次生图 API,再把图和文拼起来。而且人物在多张图之间未必一致。U1 把这件事压到了单模型一次推理里。
我自己也跑了两个测试。一个是给小朋友介绍怎么做飞机的4格漫画《第一次坐飞机》
另一个算是我的真实场景,在尝试给我新书《图解 Agent Skills》做配图。
让我意外的几件事:速度极快,基本是边想边出图;人物和风格的一致性维持得很好;最关键的是——一个 8B 的开源模型同时具备这种程度的思考能力和图像生成能力,这件事老实说我之前没怎么见过。
对我来讲,最实用的场景是写橙皮书:一章里经常需要「概念 → 概念图 → 解释段落 → 对比图 → 总结」这样的混排。以前要在 LLM 和生图 API 之间来回切,现在 U1 一次就能出整页。
它的真实边界
当然,U1 也不是没有短板。
我让它换种风格,做一张「达尔文.skill」的循环结构图。这次要的是技术蓝图风、深色背景、循环箭头加 8 个评分维度环绕。它出来是这样:
有几件事值得说一下。
这张图跟前面女娲那张的 Anthropic 编辑风完全是两套体系。同一个模型能在不同风格之间切换,说明训练语料的数据还挺丰富,这也意味着它更有机会执行不同需求的人物。很多模型有强烈的默认风格倾向,怎么都掰不出来。
文字渲染也挺让我意外。这种环形排列还能基本不出错,挺难得的。我之前用别的模型试过类似layout,文字常常错位。
不过 U1 也确实有少量错字。比如让它写 Karpathy 这个名字,它会写成 Karpthy;让它写「蒸馏」的「馏」,常常写成「漓」。这些都是 prompt 工程可以绕开的小问题,把 Karpathy 改成「卡帕西」、把「蒸馏」改成「提炼」就行。
但这些边界相对都不致命。真正重要的是它让我能用一个 8B 的开源模型,在本地跑出可以直接用的书籍级配图。这件事两个月前我都不敢想。
这个模型适合谁、适合什么场景
那 U1 真正适合谁用?我自己想了下,几个最直接的场景:
自媒体和独立创作者。每天要出文章配图、信息图、海报,U1 的速度让「试 10 个版本选 1 个」变成可行的工作流,试错成本接近零。
有数据敏感性的行业:医疗、金融、法务,或者做内部知识库、内部培训材料的团队。本地部署最大的好处就是内部数据不上云,闭源 API 在这些场景下直接是 deal-breaker。
Agent 长链路场景。一个任务要生成 10-50 张图(教程、报告、绘本、漫画都可能),调 GPT-Image-2 走 API 不仅贵还慢,U1 跑本地几乎零成本,就让这种链路真的能跑通。
商汤自己也提了一嘴,下一步会把 U1 接入「办公小浣熊」。这其实就是上面这些场景的产品化路径。
怎么上手
想试的话,有几个入口:
-
调用SenseNova U1 Skill:https://github.com/OpenSenseNova/SenseNova-Skills
-
开源代码:github.com/OpenSenseNova/SenseNova-U1
-
HuggingFace:huggingface.co/collections/sensenova/sensenova-u1
模型本身 8B,对硬件要求其实不算高。性能稍好一些的本地机器都能跑得动,不需要专业卡。官方文档里说支持 vLLM 和 sglang,已经在用这些工具的同学应该能很快跑起来。
写在最后
最近一年,多模态模型的发布我看了不下三十轮,每一轮都在说自己是 SoTA、是颠覆、是革命。U1 这次没说那么多大词,但它把 Visual Encoder 和 VAE 都砍了。这种敢于重新画路线的事,在已开源的多模态模型里其实不常见。
它现在还有边界,错字会有,复杂图表也不绝对稳定。但它给我的体感是:有些场景,确实从这周开始变得不一样了。以及我们完全可以期待他下一阶段的快速进化。
至少,我下一本橙皮书的配图,可能不再需要走 API 了。