苹果在WWDC提到的本地模型，这家公司把它提速了220倍

原创花叔花叔 2025-06-10 20:55 云南

原文地址: https://mp.weixin.qq.com/s/slKuoOVK6iVS7SDvU7fofQ

互动数据

阅读：1470
点赞：18
转发：54
喜欢：4
留言：2

你有没有注意到，在昨晚的苹果WWDC大会上，除了褒贬不一的新iOS系统之外，整个资本市场和开发者们真正关注的都是，苹果下一代系统和AI之间的关系会是什么样的。

苹果也确实给出了他们的答案，简单来说就是：苹果正式开放了本地语言模型的API。

是的，那一刻起，我们手上的iPhone，不再只是一个拍照好、生态强的消费电子产品，而是真正拥有了“AI大脑”的能力。

但很快你会发现，即便苹果这次开放的本地模型性能对标GPT-3.5，开发者要真正在端侧跑起来AI应用，仍然会遇到一个老问题：慢。不只是模型体积问题，更是推理速度不够快，尤其在处理长文本任务时，性能掉得厉害。

然而，就在几乎同一时间，一家国产AI团队发布了一个性能惊人的新模型——MiniCPM 4.0。他们在端侧处理128K长文本时，实现了常规场景5倍提速，解码速度最高220倍提升，并且开源了。

本地模型的黄金时代正在开启

我们都知道云端大模型虽然强大，但也贵得离谱，AI创业者经常要面对这样一个选择：

用云端大模型，用户体验好，但成本跟着调用次数线性上涨，越火越亏钱；
用云端低成本模型，虽然能控成本，但要么模型效果差，要么依然无法解决本地运行的隐私问题，用户留不住。

本地模型（也叫“端侧模型”）则是这一局博弈中的“第三条路”：

响应快：所有计算本地完成，没有网络延迟。
更安全：隐私数据不出设备，天然符合合规要求。
不花钱：开发者不再为每次调用买单，边际成本几乎为零。

苹果这次的发布就是在推这件事：把基础模型塞进每台iPhone、iPad、Mac里，直接变成AI开发的“新基建”。而这对模型厂商来说，意味着一个亿级设备体量的新战场已经打开。

MiniCPM 4.0

说回MiniCPM 4.0，它来自一家名叫面壁智能的团队，专注做端侧模型已经很多年，这次他们做出了一个极具想象力的“小钢炮”。

在极限场景下，MiniCPM 4.0的长文本推理速度可以实现最快****220倍提升，常规场景下也有5倍提速。对于端侧设备来说，这不是性能优化，这是质变：

以前手机只能做简单问答，现在可以一秒内读懂整篇论文、分析代码，真正成为生产力工具；
原本AI对话还会卡顿，现在你点一下模型就瞬间回你；
不需要联网，不依赖云端，你自己的AI，离你更近了。

提速背后的秘密

要在手机、PC等端侧设备上实现这么夸张的提速，我觉得实在是有点离谱，所以我很好奇MiniCPM是怎么做到的，国产大模型公司怎么会有那么多“黑科技”。

所以，为了搞懂这件事，我把面壁这次随模型发布的43页开源论文《MiniCPM4: Ultra-Efficient LLMs on End Devices》丢给了AI，尝试进行理解。我觉得用一句话概括就是：不是简单“减肥”，而是“系统级瘦身 + 增强”。

他们的速度升级来自四个层面的创新：

架构层：采用升级版的稀疏注意力机制 InfLLM v2，只计算最相关的信息，大幅减少计算量；
训练层：只用同类模型22%的训练数据，就达到了相当甚至更强的能力；
推理层：自研 CPM.cu 推理框架，结合量化、投机解码等技术，实现了轻量级、低延迟的本地运行；
系统层：通过 ArkInfer 框架，实现跨平台端侧部署，适配主流芯片，如高通、华为、Intel等。

这里可以特别说一句：虽然苹果开放了模型API，但真正要把模型“跑起来”，一个高效稳定的推理框架几乎是刚需。而这类框架在开源社区中其实非常稀缺。面壁这次随MiniCPM 4.0一起开源的ArkInfer和CPM.cu组合，恰好补上了这个缺口——不仅跑得快、平台适配广，而且开发门槛低，几行代码就能部署到端侧，这对于开发者来说是非常实用的“刚需型工具”。

简单来说，这不是靠“堆GPU”搞出来的，而是像F1赛车一样，每一寸系统都在为效率而生。

不止是“快”

AI开发者会知道，这种从“几秒”到“几百毫秒”的体验提升，会引发三个重要变化：

首先，用AI交互变得说话一样顺畅，无论是旅行场景下的实时翻译、智能助理还是游戏NPC，瞬时响应会成为“标配体验”；

其次，更多AI任务可以本地完成，比如信息摘要、文档写作、代码生成，对于现在少了AI几乎就不会做任何工作的我来说，坐飞机、高铁等网络不稳定的场景下，我也能工作了；

最后是开发者生态被重新激活，未来不仅是手机App，还有无数穿戴设备、边缘终端，都可以跑得动自己的AI。以我自己来说，虽然我已经用AI开发了很多产品，但少有AI产品，因为做有AI功能的产品面临的最直接的问题就是成本问题，你需要能保证你提供的产品价值能覆盖调用的AI API成本，而且你需要思考清楚商业策略让用户愿意付费，这期是难倒了一大批的独立开发者，也会让你做产品时很难抉择，但是端侧模型的“0成本”调用完全可以解放这部分估计，你只需要去想象创新的可能就好了。

AI在你手上

苹果率先提供了端侧AI的舞台（估计Google为安卓系统提供的模型也快赶上了），而MiniCPM 4.0让我们看到真正能“跑起来”的主角长什么样。

随着模型越来越高效、部署越来越便捷，我们正站在一个新阶段的门口：

AI不再只是“线上服务”，而是像操作系统、电池一样，成为每台设备的内建能力。

就像智能手机点燃了App经济那样，下一轮AI浪潮，将由“跑得动”、“用得上”、“快到飞起”的端侧模型引爆。

而MiniCPM 4.0，就是那台准备好冲线的“AI小钢炮”。

如果你是开发者，强烈推荐去 GitHub 看看这款模型的表现；这是个从模型参数到预训练数据集，再到端侧推理框架都开源的真开源模型；

如果你是AI产品创业者，不妨考虑下下一版是不是可以用端侧方案来做出点“爽感”不一样的体验；

毕竟，在今天的大模型时代，“快”从来不是一个小指标，它可能是一整个产品逻辑的起点。

逸尘的AI知识库

探索

苹果在WWDC提到的本地模型_这家公司把它提速了220倍