Qwen3深夜正式开源，小尺寸也能大力出奇迹。

原创数字生命卡兹克数字生命卡兹克 2025-04-29 08:05 北京

原文地址: https://mp.weixin.qq.com/s/NeW0tTACl1zZtzTOKFL8ew

互动数据

阅读：27641
点赞：827
转发：2091
喜欢：264
留言：168

小道消息一直在说，昨天深夜或者今天凌晨，阿里会发Qwen3。

然后我特意早早的睡了一两小时，凌晨1点起床，就为了等Qwen3发。

结果这一等，就是好几个小时。。。

不过，功夫不负有心人。

凌晨5点，我眼睛都睁不开的时候，终于等到了。

Qwen你赔我睡眠。。。

把报告看完，我总结一下，觉得最大的亮点有6个：

1. 模型能力登顶全球，这个没啥可说的，就是No.1。

2. 第一个开源的混合推理模型。

3. 8个不同尺寸的模型，几乎覆盖了所有场景。

4. 成本很低，旗舰模型235B参数部署成本只要DeepSeek R1的三分之一。

5. 支持MCP协议。

6. 居然还支持了119种语言。

一起说吧。

这次发了8个模型，Qwen3-0.6B、1.7B、4B、8B、14B、32B，这6个都是Dense稠密模型。

还有两个重量级MoE模型，Qwen3-30B-A3B，和旗舰版的Qwen3-235B-A22B。

这次Qwen采用了新的命名方式，Qwen3-0.6B、1.7B、32B这种没啥可说的，大家都理解。

两个MoE模型，把激活的参数写在后面，Qwen3-235B-A22B的意思就是235B的参数，但是在推理时只激活22B。

Qwen3-30B-A3B就是总参数量为30B，激活参数3B，这个还蛮有意思的。

而且，所有的模型，都是混合推理模型。

大概的意思就是，你既可以把它当不会长思考没有思维链的普通模型用，也可以直接开启推理模式，变成一个推理模型。

可以简单的理解为，把DeepSeek V3和R1直接揉在了一起。

就像我们其实都知道，DeepSeek这个深度思考，你打开的时候，是R1模型，但是你关掉，其实用的是v3来给你回答。

但是Qwen3，是一体的。

是一个模型，只不过支持了两种模式，这个不管对于开发者还是使用者，都方便很多。

整体上，8个模型，诚意足到爆炸，小到0.6B，大到235B，能打手机端侧，也能打旗舰体验，全部一次性开源了，而且都是Apache 2.0协议，想怎么用就怎么用，想商用就商用，没啥顾虑。

Qwen3-0.6B~4B的最大Token都是32K，其他的都是128K。

性能上，稍微有点离谱。

Qwen3-4B的小模型，就已经能和上一代QwQ-32B这玩意打得有来有回。而Qwen3-30B-A3B，更是几乎就比QwQ-32B全方位的强。

至于最牛逼的那个Qwen3-235B-A22B，他们甚至没只跟开源模型比，比的全都是最顶级的闭源模型。

最主要的是，这玩意部署成本，大概只有DeepSeek R1的三分之一啊。。。

什么叫便宜大碗，这就是。

但是这么一对比，忽然发现，Gemini2.5-Pro，好像有点猛。。。

同时，在性能水桶式提升的背景下，也有了更强的Agent能力，也支持MCP了。

他们官方自己放了一段视频。

我也随手把即梦接了进去，可以直接用Qwen3来调用即梦画图了。。。

就还真的，挺好玩，你的下一个即梦，又何必是即梦呢（狗头。

除了这些模型的能力，Qwen3这次还有一个很有趣的东西。

就是语言。

上一代的Qwen2.5，只支持包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种语言。

而这一次，支持119种语言了。

不是，到底谁才是真正的OpenAI啊。

这妥妥是为世界人民谋福利好吧。。。

项目地址都在这了。

Blog: https://qwenlm.github.io/blog/qwen3/

GitHub: https://github.com/QwenLM/Qwen3

你牛逼的话可以自己部署，我5080勉强跑个Qwen3-8B，实在跑不起。

想体验的话，可以直接去通义和Qwen Chat，都可以。

通义：https://www.tongyi.com/qianwen/

Qwen Chat：https://chat.qwen.ai/

我自己直接在Qwen Chat上面实测了一波，一进来左上角就默认是旗舰版Qwen3。

嗯，就是比较抽象的是，提示语都居然都变成早上好，卡兹克了。。。

你可以在左上角，切换3个这次Qwen3比较有代表的模型来进行对比。

左下角的深度思考，就能是否开启推理的开关。

而且这个开关还能拖动滑块，决定它的最大思考长度，虽然这个功能很极客，但是还有意思。

我自己的实测结论就是：水桶级别，中等偏上。

比如让它给我生成一个登录页。

效果很不错，能直接干出一个很酷的界面。

https://us4mpg09fz.app.yourware.so/

或者做藏师傅搞得可交互的网页，把吃瓜PDF变成在线时间线。

这时候你就会发现，审美会差一点，丰富度也会不是特别狗，稍微有一点点勉强了。

藏师傅之前的可视化网页Prompt如下：：

我会给你一个文件，分析内容，并将其转化为美观漂亮的中文可视化网页作品集：

而如果再让它写一个之前我在文章里放的洛小山的弹球游戏。就确实没有那么亮眼，在游玩的时候还有一些些BUG。

但是毕竟这个游戏还是太复杂了，人模型的尺寸也没那么大，也没法既要又要。

如果是做稍微简单一点的连连看游戏，就还是比较简单了。

<!-- 生成一个记忆翻牌游戏，要求：

除了代码，逻辑问题，现在基本也不太能难道现在的推理大模型了。

不过在遇到一些非常离奇非正常的测试prompt时，还是会有一点点掉智。

文笔的话，亲测会比DeepSeek好一些。

但是略逊于GPT-4o。

如果你还想玩一点花活，还能跟即梦打通做结合。

就能实现类似于那种原生多模态模型，图文混排的效果。

还是超级有意思的。

总之，这次Qwen3的发布，真的有点像是深夜街头，突然亮起的那盏霓虹灯。

不仅亮，还便宜。

不仅便宜，还能库库的切换颜色。

这一波下来，阿里确实是拿出了一种很阿里的态度。

8点了，天也亮了。

该去睡觉了。

最后。

Qwen3，欢迎来到这个荒诞又灿烂的时代。

咱们，下个奇点见。

逸尘的AI知识库

探索

Qwen3深夜正式开源_小尺寸也能大力出奇迹_

Qwen3深夜正式开源，小尺寸也能大力出奇迹。

互动数据

关系图谱

目录