苹果在WWDC提到的本地模型,这家公司把它提速了220倍
原创 花叔 花叔 2025-06-10 20:55 云南
互动数据
- 阅读:1470
- 点赞:18
- 转发:54
- 喜欢:4
- 留言:2
你有没有注意到,在昨晚的苹果WWDC大会上,除了褒贬不一的新iOS系统之外,整个资本市场和开发者们真正关注的都是,苹果下一代系统和AI之间的关系会是什么样的。
苹果也确实给出了他们的答案,简单来说就是:苹果正式开放了本地语言模型的API。
是的,那一刻起,我们手上的iPhone,不再只是一个拍照好、生态强的消费电子产品,而是真正拥有了“AI大脑”的能力。
但很快你会发现,即便苹果这次开放的本地模型性能对标GPT-3.5,开发者要真正在端侧跑起来AI应用,仍然会遇到一个老问题:慢。不只是模型体积问题,更是推理速度不够快,尤其在处理长文本任务时,性能掉得厉害。
然而,就在几乎同一时间,一家国产AI团队发布了一个性能惊人的新模型——MiniCPM 4.0。他们在端侧处理128K长文本时,实现了常规场景5倍提速,解码速度最高220倍提升,并且开源了。
本地模型的黄金时代正在开启
我们都知道云端大模型虽然强大,但也贵得离谱,AI创业者经常要面对这样一个选择:
-
用云端大模型,用户体验好,但成本跟着调用次数线性上涨,越火越亏钱;
-
用云端低成本模型,虽然能控成本,但要么模型效果差,要么依然无法解决本地运行的隐私问题,用户留不住。
本地模型(也叫“端侧模型”)则是这一局博弈中的“第三条路”:
-
响应快:所有计算本地完成,没有网络延迟。
-
更安全:隐私数据不出设备,天然符合合规要求。
-
不花钱:开发者不再为每次调用买单,边际成本几乎为零。
苹果这次的发布就是在推这件事:把基础模型塞进每台iPhone、iPad、Mac里,直接变成AI开发的“新基建”。而这对模型厂商来说,意味着一个亿级设备体量的新战场已经打开。
MiniCPM 4.0
说回MiniCPM 4.0,它来自一家名叫面壁智能的团队,专注做端侧模型已经很多年,这次他们做出了一个极具想象力的“小钢炮”。
在极限场景下,MiniCPM 4.0的长文本推理速度可以实现最快****220倍提升,常规场景下也有5倍提速。对于端侧设备来说,这不是性能优化,这是质变:
-
以前手机只能做简单问答,现在可以一秒内读懂整篇论文、分析代码,真正成为生产力工具;
-
原本AI对话还会卡顿,现在你点一下模型就瞬间回你;
-
不需要联网,不依赖云端,你自己的AI,离你更近了。
提速背后的秘密
要在手机、PC等端侧设备上实现这么夸张的提速,我觉得实在是有点离谱,所以我很好奇MiniCPM是怎么做到的,国产大模型公司怎么会有那么多“黑科技”。
所以,为了搞懂这件事,我把面壁这次随模型发布的43页开源论文《MiniCPM4: Ultra-Efficient LLMs on End Devices》丢给了AI,尝试进行理解。我觉得用一句话概括就是:不是简单“减肥”,而是“系统级瘦身 + 增强”。
他们的速度升级来自四个层面的创新:
-
架构层:采用升级版的稀疏注意力机制 InfLLM v2,只计算最相关的信息,大幅减少计算量;
-
训练层:只用同类模型22%的训练数据,就达到了相当甚至更强的能力;
-
推理层:自研 CPM.cu 推理框架,结合量化、投机解码等技术,实现了轻量级、低延迟的本地运行;
-
系统层:通过 ArkInfer 框架,实现跨平台端侧部署,适配主流芯片,如高通、华为、Intel等。
这里可以特别说一句:虽然苹果开放了模型API,但真正要把模型“跑起来”,一个高效稳定的推理框架几乎是刚需。而这类框架在开源社区中其实非常稀缺。面壁这次随MiniCPM 4.0一起开源的ArkInfer和CPM.cu组合,恰好补上了这个缺口——不仅跑得快、平台适配广,而且开发门槛低,几行代码就能部署到端侧,这对于开发者来说是非常实用的“刚需型工具”。
简单来说,这不是靠“堆GPU”搞出来的,而是像F1赛车一样,每一寸系统都在为效率而生。
不止是“快”
AI开发者会知道,这种从“几秒”到“几百毫秒”的体验提升,会引发三个重要变化:
首先,用AI交互变得说话一样顺畅,无论是旅行场景下的实时翻译、智能助理还是游戏NPC,瞬时响应会成为“标配体验”;
其次,更多AI任务可以本地完成,比如信息摘要、文档写作、代码生成,对于现在少了AI几乎就不会做任何工作的我来说,坐飞机、高铁等网络不稳定的场景下,我也能工作了;
最后是开发者生态被重新激活,未来不仅是手机App,还有无数穿戴设备、边缘终端,都可以跑得动自己的AI。以我自己来说,虽然我已经用AI开发了很多产品,但少有AI产品,因为做有AI功能的产品面临的最直接的问题就是成本问题,你需要能保证你提供的产品价值能覆盖调用的AI API成本,而且你需要思考清楚商业策略让用户愿意付费,这期是难倒了一大批的独立开发者,也会让你做产品时很难抉择,但是端侧模型的“0成本”调用完全可以解放这部分估计,你只需要去想象创新的可能就好了。
AI在你手上
苹果率先提供了端侧AI的舞台(估计Google为安卓系统提供的模型也快赶上了),而MiniCPM 4.0让我们看到真正能“跑起来”的主角长什么样。
随着模型越来越高效、部署越来越便捷,我们正站在一个新阶段的门口:
AI不再只是“线上服务”,而是像操作系统、电池一样,成为每台设备的内建能力。
就像智能手机点燃了App经济那样,下一轮AI浪潮,将由“跑得动”、“用得上”、“快到飞起”的端侧模型引爆。
而MiniCPM 4.0,就是那台准备好冲线的“AI小钢炮”。
如果你是开发者,强烈推荐去 GitHub 看看这款模型的表现;这是个从模型参数到预训练数据集,再到端侧推理框架都开源的真开源模型;
如果你是AI产品创业者,不妨考虑下下一版是不是可以用端侧方案来做出点“爽感”不一样的体验;
毕竟,在今天的大模型时代,“快”从来不是一个小指标,它可能是一整个产品逻辑的起点。
相关链接:
MiniCPM GitHub链接:https://github.com/OpenBMB/MiniCPM
Huggingface链接:https://huggingface.co/openbmb/MiniCPM4-8B
43页开源论文:https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM\_4\_Technical\_Report.pdf