阿里一口气发了N款新模型，让我们向源神致敬。

原创数字生命卡兹克数字生命卡兹克 2025-09-24 13:27 北京

原文地址: https://mp.weixin.qq.com/s/mcFatd30cC1Ee16kUZg8_w

互动数据

阅读：51067
点赞：1218
转发：4355
喜欢：446
留言：163

阿里的早上这个发布会，给我看麻了。

一场阿里的云栖大会，我真的感觉，他们把家底全都掏出来了。。。

发了不知道多少个模型。

我虽然这次有事很可惜没去成现场，但是还是破天荒的8点多起床一下蹲了直播。

结果一直等到快10点才开始= =

过程中，我都看懵了，就一股脑子发啊，各种各样的模型，挨个掏。

我大概数了下，纯今天新发布的新模型有两个，一个是整个Qwen系列最强的Qwen3-Max，另一个是爆火的Wan2.2的后续模型Wan2.5，这玩意支持跟Veo3一样的音画同出的特性，是有点东西的。

然后也正式发布了前几天为了预热提前发布的模型，比如目前Qwen里面最强的Qwen3-VL模型，还有一个全模态模型Qwen3-Omni，还有全新的模型架构带来的Qwen3-Next等等。

不知道为什么，总让我有一种Google的既视感。

一边开发布会，另一边，阿里的股票直接涨飞了。

我最快速度整理+体验了一波，给大家直接一文总结一下，来自阿里的全发布。

话不多说，我们，开始。

一. Qwen3-Max

最牛逼最新的，肯定就当属Qwen3-Max正式版了，直接对标GPT-5、Claude Opus 4这些世界顶尖模型。

上一次发Max还是今年1月29日除夕发布的，半年后，他们终于把Qwen3-Max掏出来了。

在LMArena上，之前的Qwen3-Max-Instruct的预览版，在这个全球最权威的匿名模型对战平台上，并列前三，直接把GPT-5-Chat都甩在了身后。

这次的Max，是真的把参数堆满了。

模型总参数超过了1万亿，用了36万亿的tokens进行预训练，突出一个量大管饱。

他们自己的Blog的标题也非常的苹果味。

大就是好。

MoE模型，1万亿的大小，支持100万Token的上下文。

这次发布的Qwen3-Max，也跟别家一样，分了两个版本，一个Instruct版，一个更猛的Thinking版。

Qwen3-Max-Instruct这个版本，就是我们现在能直接用到的，不带深度思考的。

主要是在代码和Agent能力上，还是非常强的。

AIME2025基本一骑绝尘，在LiveCodeBench v6这个强调复杂工程题、未公开题上的泛化能力的测试集上，也得到了不错的效果。

τ²-Bench这个新的强调AI在动态环境中的推理、工具使用、用户引导与协调能力的Agent评测集，Qwen3-Max也是最强的，74.8分，直接干翻了Claude Opus 4和DeepSeek-V3.1。

SWE-Bench这个专门解决真实世界编程难题的测试集上，它拿了69.6分，也是稳稳的世界第一梯队。

不过感觉后面可以更多的看看 SWE-Bench Pro了。

Thinking版目前发了能力图，但是还没放出来。

在AIME 25和HMMT这两个地狱难度的数学推理竞赛题集上，Qwen3-Max-Thinking，拿了100分。

满分。

直接跟GPT-5 Pro打平了。

这玩意还是有点酷的，可惜，现在还体验不到。

目前Qwen3-Max-Instruct已经在官网上线了：

https://chat.qwen.ai/

可以看到深度推理那块是灰的，不过据说也快上线了。

大家可以去体验一下。

哦对了，Qwen3-Max目前不开源。

二. Wan-2.5

这段时间，开源的Wan2.2已经爆了。

你在X上，随处可以那种做人物动画迁移拿到百万观看的帖子。

阿里直接趁热打铁，把Wan2.5掏了出来。

一些升级到1080P、能跑10s时长这种基础参数啥的我就不说了。

有一个很好玩的东西，是我觉得可以一提的，就是他们的新能力。

音画同出。

听到这个词是不是很陌生？但是如果我说是是Veo3的那个原生的输出带角色音频的视频，你们应该就会有印象了。

而这次，Wan2.5，也是第一次支持这个能力，不仅可以跟Veo3一样，用Prompt控制，而且，还可以上传图片+音频直出。

你可以在通义万相上玩：

https://tongyi.aliyun.com/

我直接给大家放一个例子。

直接一张图+1段音频，就可以跑出表演还不错的视频。

很酷。

还有更好玩的。

真的，能玩起来的花活实在太多了。

得益于音画同步直出的能力，在数字人和人物表演上，能力大幅加强。

而且解决了Veo3一直以来一个很尴尬的问题，就是没法保持音色一致性。

但是现在，Wan2.5可以支持上传音频驱动了。

那保持一致性，就太简单了。

这可能给AI短剧，又带来一波很酷的飞跃。

三. Qwen3-VL

Qwen3-VL今天凌晨提前开源了。

目前是Qwen 系列中最强大的视觉语言模型，原生支持256K token上下文，还能扩展到100万上下文，大概支持长达2小时的视频。

这次开源的是VL系列的旗舰模型Qwen3-VL-235B-A22B，有Instruct与Thinking两个版本，带推理和不带推理的。

在跑分上是有点东西的，在一些能力上，甚至优于Gemini2.5 Pro了。

这里也放一下他们的片子，我觉得这种视觉模型，一定得配视觉化的看起来才爽。

而且有几个特点我觉得是有点牛逼的。

一个是有视觉Agent能力，能理解按钮、调用工具等等，在PC或者手机上完成一些Agent任务。

这个还是挺强的。

各种识别+推理能力也是非常的牛逼，我的好基友@刘聪NLP测了不少这块的Case。

比如有一个很坑的题：

找到2024年GDP值最大的省份，并且计算占全国GDP的百分之多少？

而Qwen3-VL-235B-A22B，都没开推理，也是一次就对了。

四. Qwen3-Omni

Qwen3-Omni是一个开源的全模态模型，阿里的盘子真的铺的太大了，模型也真的太全了。

这个是昨天凌晨提前发了，但是在今天的云栖大会上，正式发布了。

这是一个纯粹的端到端模型，Qwen3-Omni在训练的时候学习了很多跨模态的数据，原生支持文本、图像、音频和视频的输入，支持119种文本语言交互、19种语音理解语言与10种语音生成语言。

对，你可以直接进行端到端语音对话，延迟只有211毫秒。

还支持function call和MCP，能非常方便的和现有工具结合。

我直接用它，来识别歌曲。

还是挺好玩的。

五. 其他

还没完，嗯。。

还有Qwen3-Coder-Plus，推理速度更快，使用更少的 token 可达到更优的效果，代码安全性增强。

还有Qwen3-Next，总参数80B仅激活 3B，性能就可媲美千问3旗舰版235B模型，训练成本较密集模型Qwen3-32B大降超90%，长文本推理吞吐量提升10倍以上，就离谱。

还有全新的语音模型家族通义百聆，涵盖语音识别大模型Fun-ASR、语音合成大模型Fun-CosyVoice。

Fun-ASR基于数千万小时真实语音数据训练而成，具备强大的上下文理解能力与行业适应性，能实时处理10多种语言。

Fun-CosyVoice可提供上百种预制音色，完全可以拿去做各种客服、有声书、AI玩具啥的。

还有Qwen3-LiveTranslate-Flas，实时多模态翻译，只有3秒多的延迟。。

还有Qwen3Guard，专为全球实时AI安全构建的Qwen3基础安全审核模型，非常适合做RL奖励建模。

还有图片编辑模型Qwen-Image-Edit-2509。。。

阿里，真的，就离谱。。。

开源给我人开傻了。

写在最后

总而言之，阿里这次发布会给我的感觉就是四个字。

倾其所有。

为了这个繁荣昌盛的AI生态。

几乎是构建了一个从底层模型到上层应用，覆盖文本、视觉、音频、视频的全模态、全场景的超级生态。

而且我看了下数据，现在，开源届，现在真的就是Qwen一统江湖了。

这个肌肉，秀的是真的6。

不得不夸一句。

今天的光，属于阿里。

逸尘的AI知识库

探索

阿里一口气发了N款新模型_让我们向源神致敬_

阿里一口气发了N款新模型，让我们向源神致敬。

互动数据

关系图谱

目录