横扫硅谷的千问,杀回国内了

原创 花叔 花叔 2025-11-17 11:47

原文地址: https://mp.weixin.qq.com/s/wqG2Sc1cG1vK_5lWvuWJ1g

互动数据

  • 阅读:1984
  • 点赞:19
  • 转发:91
  • 喜欢:8
  • 留言:4

10月22日,Airbnb CEO布莱恩·切斯基在采访中说了句让硅谷侧目的话:

我们大量依赖阿里巴巴的Qwen模型,它非常好,很快速且便宜…

图片

11月3日,nof1.ai策划的首届AI投资大赛结果出炉:Qwen3 Max排名第一,收益率22.3%,和DeepSeek构成了仅有的两个盈利模型之一。GPT5、Claude 4.5、Gemini 2.5 Pro全部亏损。

图片

这是第一个专门衡量AI投资能力的测试,可以理解为是币圈版图灵测试。

规则很简单:每个模型拿1万美元,自己在加密货币市场交易,全程无人干预。结果,只有Qwen3 Max赚钱了。

再往前,8月,有网友在X上发了用通义万相Wan2.2生成的图片,马斯克点评:

It will be impossible to tell what’s real online

图片

7月,HuggingFace CEO连转12条推盛赞Qwen3-Coder,推特创始人Jack Dorsey直接说:

goose + qwen3-coder = wow

图片

5月,英伟达CEO黄仁勋, 在财报电话会上说:

阿里巴巴的通义千问模型是开源AI模型中最好的。它们在美国、欧洲及其他地区获得了巨大关注。

在横扫完一圈硅谷后,Qwen,现在终于杀回国内了。

11月14日,阿里正式推出C端产品——千问APP。这一次,中国终于有了自己的ChatGPT。

图片

为什么硅谷认可?

从文章开头我举的一些例子,你可能就发现了,虽然都在夸Qwen,但他们好像夸的并不是一个Qwen!其中有投资能力霸榜的Qwen3-Max,有马斯克夸的图像模型wan2.2,也有Jack Dorsey盛赞的Qwen3-coder。

Qwen实在是太能搞东西,我觉得他们并不是在做模型,而是真在构建一个生态。

而这种多线开花,在分枝上有突破的特点,再加上他们的开源精神,是很容易受到开发者,受到硅谷企业盛赞的。

在9月28日Hugging Face公布的模型趋势榜上,Qwen系列7款模型挤进全球前10,几乎屠榜。

图片

而从模型具体的Benchmark表现来说,Qwen很多模型都可圈可点的:

1)Qwen3-Max:Chatbot Arena全球第三,超过GPT-5

2)Qwen3-Coder:编程能力并列全球第一,超越GPT-4.1

3)Qwen3-VL:视觉理解全球第二,开源第一

这种又强又广的特点,在开源生态上可能还会体现得更明显:

1)Qwen衍生模型17万+,超越Meta的Llama,全球第一

2)下载量超6亿次

3)HuggingFace 2024年下载量占比超30%

当然,我也得说一句,模型太多这件事对C端用户可能就没那么友好了,普通用户不像开发者那样熟悉种种模型之间的优劣势,也没有更多的能力去判断在不同的场景下分别该使用Qwen哪个模型。

所以,Qwen很长时间的情况都是,在硅谷和开发者口中口碑盛好,但…普通用户确实没那么了解。

我想现在阿里推出千问app大概就是想解决这个问题,即想把出色的模型能力和丰富的模型生态也开放给普通用户使用,但也别有那么多的名字提高用户的决策成本了。

为什么说千问=中国的ChatGPT?

今天,我看到金沙江创投朱啸虎(对,就是那个投过滴滴、饿了么、小红书的朱啸虎)在朋友圈和小红书发文,标签千问app的发布意味着「硬刚ChatGPT的国产AI出现了」。

他给了三个理由,原文如下

  1. 在硅谷屠榜的Qwen杀回国内了,模型直接决定了阿里千问APP的起点。

  2. 更聪明的国产AI出现了。 我看了一下它的思考链路,逻辑清楚,专业问题也表现挺好,不闹着玩儿,全是干货,这是中国市场真正需要的AI产品。

  3. 从算力基建、数据积累,到各种应用在AI领域的整合打通。 估计阿里这是准备用千问重构一个超级AI的入口。

作为一个颇受争议的投资人,朱啸虎在AI上的观点常常能激起很多讨论。比如,他去年就说过”中国大模型公司没戏,我一家都没投”,后面DeepSeek的横空出世让他改过一次态度,而现在,又公开背书千问,说明是真看好。

我总结了一下,觉得他是从技术、产品、生态这三个视角去得出他的观点的,这个思路值得参考,我也试着从这三个维度出发,去谈谈我的观点。

技术、产品、生态三维度拆解

不过,先岔个题,在两个半月前,我发了个即刻动态,里面提到现在二级市场上最靠谱的AI股可能是阿里,他们从产品到模型都还不错。

从那一天至今,阿里股价涨了近30%,看来市场也是逐渐意识到这一点了(当然,这是我自己的小判断,不构成投资意见,请谨慎参考)。

图片

技术方面,我觉得在开头提的够多,就不赘述了,我们可以在额外看几个关键数据:

1)SWE-Bench Verified(代码解决真实问题测试):69.6分,全球第一梯队

)Tau2-Bench(Agent工具调用能力测试):74.8分,超过Claude Opus 4和DeepSeek-V3.1

3)AIME 25和HMMT(数学推理测试):双满分,国内首次

也就是说,ChatGPT能做的,Qwen都能做。ChatGPT做不到的(比如某些专业推理场景),Qwen也能做。

更别提,Qwen是开源的,参数权重全公开,你可以改、可以定制。

再说说产品方面,千问APP对标ChatGPT的产品哲学:极简界面,强大能力。

几个亮点:

  • 会思考:思维链高级,多步推理,会根据你实际任务的需要选择是否思考、是否联网,不是简单问答

  • 懂中文:原生中文理解,不会突然给你蹦英文

  • 全模态:文本、视觉理解、图像生成、语音,一个APP搞定

  • 免费:ChatGPT Plus $20/月,千问完全免费

最后,很重要的,千问背后是阿里的整个AI生态。

1)开源生态:17万衍生模型,全球开发者共同进化

2)商业场景:能打通淘宝、钉钉、高德等阿里系产品

3)基础设施:380亿AI投资,云计算、算力、数据全覆盖

4)本土化:不用翻墙,数据在国内,符合监管

在AI模型越来越和实际场景融合的今天,有生态加持的产品显然是更容易在体验上做出差异化做出特色来的。而考虑中国的市场环境,ChatGPT显然是不适配的。阿里有”云+模型+产品+商业场景”全链路。这就是朱啸虎说的”生态闭环护城河”。

四个场景对比:千问 vs ChatGPT vs DeepSeek

我拿几个实际工作、生活中常见的场景来对比三个产品在一些基础任务上的表现,分别是:实时信息问答、图片理解/搜索、文本生成、文本总结。

测试1:实时信息问答

我问的是「杨立昆为何选择现在离职创业?」,这不是个多困难的问题,但是需要模型意识到需要调用实时联网搜索能力,减少幻觉,再搜到足够多的信息,汇总出结论来。

图片

在这个问题下,三个产品的第一步倒是都没问题,都有选择联网搜索获取信息,连DeepSeek都没翻车。不过从最终成文来说,我个人不太喜欢GPT 5.1那种莫名其妙,太套近乎的说话风格,这几天的5.1也是没少因此被骂的,有时候我们希望AI就用AI的态度回答就好了。

DeepSeek和千问的结论基本一致,不过千问整体回答的结构化程度是最好的,从「战略理念分歧」到「组织权力重构」,再到「行业趋势与个人使命」「离职时机」,一级和二级标题的内容层次结构都相当清晰。

所以这部分我自己的偏好是:千问app > DeepSeek > ChatGPT

测试2:图文理解/搜索

在这个问题场景里,我是看到了一张很感兴趣的照片,想让AI告诉我这是哪,有什么旅行建议。

图片

显然,DeepSeek在这题上翻车了,它都没法回答,因为DeepSeek虽然也有做视觉模型,但是他们app内现在还完全缺乏图像理解能力,图片上传功能依然只是OCR文字识别的功能😢

这题里千问和ChatGPT都是完整且准确回答了我的问题,但是解答思路不太一样,千问是搜索相关图片,帮我找到了更多图片资料,我可以自己进一步探索相关内容;ChatGPT则是把图片理解得很细,甚至告诉我是在哪拍的,拍摄中的主景是什么。算是各有优势,如果图片的理解和搜索能结合起来我会更喜欢。

所以在这题上我的偏好是 ChatGPT = 千问 > DeepSeek

测试3:文本生成

让AI帮我们写资料算是最常见的使用场景之一了,在这个场景下,我让他们「帮我写一个关于如何用AI辅助写作周报的小红书文章,300字」。

图片

最基础的,小红书的图文文章需要有标题、有正文,以及用一些emoji,内容更简短,更贴近日常更实用生活化的语言。

在这里我觉得ChatGPT似乎不那么理解小红书,从标题到正文的表述都太AI了。千问app会先阐述痛点引出要写的内容,然后再去表述解决方案;而DeepSeek则是安利工具的角度写的,内容结构倒是也很简洁,但是有个问题是,里面媒体具体的工具,但是提到选择「专业模式」这类词,明显有幻觉,真实度一般。

在这个场景下,我的偏好是:千问app > DeepSeek > ChatGPT

测试4:文本总结

在这个场景里,我都是把上万字的最近段永平接受雪球CEO采访的视频播客的字幕发给了AI,然后让他们帮我总结其中段永平对AI的观点。

图片

让我比较意外的是,这三个产品都能无压力吞下几万字的输入,而且确实都总结到了关键点。不过,对于一个总结来说,我希望内容是既有深度,又有原文引用,去说明为何有这样的结论的,细节是什么。

从这个视角来说,DeepSeek总结的结果太简单了,只有结论没有引用。千问做的好了不少,直接引用了不少段永平在视频播客中的原文表述,比如「至少要惨和一下,不要miss掉」「买股票就是买公司」「阿猫阿狗都跟着涨」,从这些细节可以去生动理解段永平的结论。

而ChatGPT则是在这个问题上做了更深度思考,把不同片段中内容的观点综合了起来,所以结论在引用原文的前提下有了更深度的探讨。

在这个场景下,我的偏好是:ChatGPT > 千问app > DeepSeek

所以,上面四项测试里,千问app有两次第一,一次并列第一,一次第二,称之为中国的ChatGPT并不过分。

这不是终点,是起点

所以,千问的出现,意味着什么?

1. 中国AI从追赶到并跑

技术上,Qwen3-Max全球第三,和GPT、Claude在同一梯队。生态上,17万衍生模型,甚至超过了Meta的Llama。

过去,我们跟着美国跑,模型晚一年,能力差一截。现在,我们和美国同步,甚至某些方面领先。

2. AI平权时代到来

ChatGPT Plus $20/月,不便宜。千问完全免费,功能全开,国内直接访问。

人人可用,门槛够低。

3. 应用落地加速

阿里的商业场景丰富:淘宝、天猫、钉钉、高德、夸克。大胆设想千问有机会可以打通这些产品,真正成为”AI助理”。

想象一下:你在钉钉开会,千问自动生成会议纪要。你在淘宝购物,千问帮你分析哪个商品性价比最高。你在高德导航,千问提醒你路上有什么好吃的。

这些场景,ChatGPT做不到。因为它只是一个产品,千问背后是一个生态。

中国的ChatGPT,不是梦想,而是现实。这不是终点,是起点。