横扫硅谷的千问，杀回国内了

原创花叔花叔 2025-11-17 11:47

原文地址: https://mp.weixin.qq.com/s/wqG2Sc1cG1vK_5lWvuWJ1g

互动数据

阅读：1984
点赞：19
转发：91
喜欢：8
留言：4

10月22日，Airbnb CEO布莱恩·切斯基在采访中说了句让硅谷侧目的话：

我们大量依赖阿里巴巴的Qwen模型，它非常好，很快速且便宜…

11月3日，nof1.ai策划的首届AI投资大赛结果出炉：Qwen3 Max排名第一，收益率22.3%，和DeepSeek构成了仅有的两个盈利模型之一。GPT5、Claude 4.5、Gemini 2.5 Pro全部亏损。

这是第一个专门衡量AI投资能力的测试，可以理解为是币圈版图灵测试。

规则很简单：每个模型拿1万美元，自己在加密货币市场交易，全程无人干预。结果，只有Qwen3 Max赚钱了。

再往前，8月，有网友在X上发了用通义万相Wan2.2生成的图片，马斯克点评：

It will be impossible to tell what’s real online

7月，HuggingFace CEO连转12条推盛赞Qwen3-Coder，推特创始人Jack Dorsey直接说：

goose + qwen3-coder = wow

5月，英伟达CEO黄仁勋， 在财报电话会上说：

阿里巴巴的通义千问模型是开源AI模型中最好的。它们在美国、欧洲及其他地区获得了巨大关注。

在横扫完一圈硅谷后，Qwen，现在终于杀回国内了。

11月14日，阿里正式推出C端产品——千问APP。这一次，中国终于有了自己的ChatGPT。

为什么硅谷认可？

从文章开头我举的一些例子，你可能就发现了，虽然都在夸Qwen，但他们好像夸的并不是一个Qwen！其中有投资能力霸榜的Qwen3-Max，有马斯克夸的图像模型wan2.2，也有Jack Dorsey盛赞的Qwen3-coder。

Qwen实在是太能搞东西，我觉得他们并不是在做模型，而是真在构建一个生态。

而这种多线开花，在分枝上有突破的特点，再加上他们的开源精神，是很容易受到开发者，受到硅谷企业盛赞的。

在9月28日Hugging Face公布的模型趋势榜上，Qwen系列7款模型挤进全球前10，几乎屠榜。

而从模型具体的Benchmark表现来说，Qwen很多模型都可圈可点的：

1）Qwen3-Max：Chatbot Arena全球第三，超过GPT-5

2）Qwen3-Coder：编程能力并列全球第一，超越GPT-4.1

3）Qwen3-VL：视觉理解全球第二，开源第一

这种又强又广的特点，在开源生态上可能还会体现得更明显：

1）Qwen衍生模型17万+，超越Meta的Llama，全球第一

2）下载量超6亿次

3）HuggingFace 2024年下载量占比超30%

当然，我也得说一句，模型太多这件事对C端用户可能就没那么友好了，普通用户不像开发者那样熟悉种种模型之间的优劣势，也没有更多的能力去判断在不同的场景下分别该使用Qwen哪个模型。

所以，Qwen很长时间的情况都是，在硅谷和开发者口中口碑盛好，但…普通用户确实没那么了解。

我想现在阿里推出千问app大概就是想解决这个问题，即想把出色的模型能力和丰富的模型生态也开放给普通用户使用，但也别有那么多的名字提高用户的决策成本了。

为什么说千问=中国的ChatGPT？

今天，我看到金沙江创投朱啸虎（对，就是那个投过滴滴、饿了么、小红书的朱啸虎）在朋友圈和小红书发文，标签千问app的发布意味着「硬刚ChatGPT的国产AI出现了」。

他给了三个理由，原文如下：

在硅谷屠榜的Qwen杀回国内了，模型直接决定了阿里千问APP的起点。
更聪明的国产AI出现了。我看了一下它的思考链路，逻辑清楚，专业问题也表现挺好，不闹着玩儿，全是干货，这是中国市场真正需要的AI产品。
从算力基建、数据积累，到各种应用在AI领域的整合打通。估计阿里这是准备用千问重构一个超级AI的入口。

作为一个颇受争议的投资人，朱啸虎在AI上的观点常常能激起很多讨论。比如，他去年就说过”中国大模型公司没戏，我一家都没投”，后面DeepSeek的横空出世让他改过一次态度，而现在，又公开背书千问，说明是真看好。

我总结了一下，觉得他是从技术、产品、生态这三个视角去得出他的观点的，这个思路值得参考，我也试着从这三个维度出发，去谈谈我的观点。

技术、产品、生态三维度拆解

不过，先岔个题，在两个半月前，我发了个即刻动态，里面提到现在二级市场上最靠谱的AI股可能是阿里，他们从产品到模型都还不错。

从那一天至今，阿里股价涨了近30%，看来市场也是逐渐意识到这一点了（当然，这是我自己的小判断，不构成投资意见，请谨慎参考）。

技术方面，我觉得在开头提的够多，就不赘述了，我们可以在额外看几个关键数据：

1）SWE-Bench Verified（代码解决真实问题测试）：69.6分，全球第一梯队

）Tau2-Bench（Agent工具调用能力测试）：74.8分，超过Claude Opus 4和DeepSeek-V3.1

3）AIME 25和HMMT（数学推理测试）：双满分，国内首次

也就是说，ChatGPT能做的，Qwen都能做。ChatGPT做不到的（比如某些专业推理场景），Qwen也能做。

更别提，Qwen是开源的，参数权重全公开，你可以改、可以定制。

再说说产品方面，千问APP对标ChatGPT的产品哲学：极简界面，强大能力。

几个亮点：

会思考：思维链高级，多步推理，会根据你实际任务的需要选择是否思考、是否联网，不是简单问答
懂中文：原生中文理解，不会突然给你蹦英文
全模态：文本、视觉理解、图像生成、语音，一个APP搞定
免费：ChatGPT Plus $20/月，千问完全免费

最后，很重要的，千问背后是阿里的整个AI生态。

1）开源生态：17万衍生模型，全球开发者共同进化

2）商业场景：能打通淘宝、钉钉、高德等阿里系产品

3）基础设施：380亿AI投资，云计算、算力、数据全覆盖

4）本土化：不用翻墙，数据在国内，符合监管

在AI模型越来越和实际场景融合的今天，有生态加持的产品显然是更容易在体验上做出差异化做出特色来的。而考虑中国的市场环境，ChatGPT显然是不适配的。阿里有”云+模型+产品+商业场景”全链路。这就是朱啸虎说的”生态闭环护城河”。

四个场景对比：千问 vs ChatGPT vs DeepSeek

我拿几个实际工作、生活中常见的场景来对比三个产品在一些基础任务上的表现，分别是：实时信息问答、图片理解/搜索、文本生成、文本总结。

测试1：实时信息问答

我问的是「杨立昆为何选择现在离职创业？」，这不是个多困难的问题，但是需要模型意识到需要调用实时联网搜索能力，减少幻觉，再搜到足够多的信息，汇总出结论来。

在这个问题下，三个产品的第一步倒是都没问题，都有选择联网搜索获取信息，连DeepSeek都没翻车。不过从最终成文来说，我个人不太喜欢GPT 5.1那种莫名其妙，太套近乎的说话风格，这几天的5.1也是没少因此被骂的，有时候我们希望AI就用AI的态度回答就好了。

DeepSeek和千问的结论基本一致，不过千问整体回答的结构化程度是最好的，从「战略理念分歧」到「组织权力重构」，再到「行业趋势与个人使命」「离职时机」，一级和二级标题的内容层次结构都相当清晰。

所以这部分我自己的偏好是：千问app > DeepSeek > ChatGPT

测试2：图文理解/搜索

在这个问题场景里，我是看到了一张很感兴趣的照片，想让AI告诉我这是哪，有什么旅行建议。

显然，DeepSeek在这题上翻车了，它都没法回答，因为DeepSeek虽然也有做视觉模型，但是他们app内现在还完全缺乏图像理解能力，图片上传功能依然只是OCR文字识别的功能😢

这题里千问和ChatGPT都是完整且准确回答了我的问题，但是解答思路不太一样，千问是搜索相关图片，帮我找到了更多图片资料，我可以自己进一步探索相关内容；ChatGPT则是把图片理解得很细，甚至告诉我是在哪拍的，拍摄中的主景是什么。算是各有优势，如果图片的理解和搜索能结合起来我会更喜欢。

所以在这题上我的偏好是 ChatGPT = 千问 > DeepSeek

测试3：文本生成

让AI帮我们写资料算是最常见的使用场景之一了，在这个场景下，我让他们「帮我写一个关于如何用AI辅助写作周报的小红书文章，300字」。

最基础的，小红书的图文文章需要有标题、有正文，以及用一些emoji，内容更简短，更贴近日常更实用生活化的语言。

在这里我觉得ChatGPT似乎不那么理解小红书，从标题到正文的表述都太AI了。千问app会先阐述痛点引出要写的内容，然后再去表述解决方案；而DeepSeek则是安利工具的角度写的，内容结构倒是也很简洁，但是有个问题是，里面媒体具体的工具，但是提到选择「专业模式」这类词，明显有幻觉，真实度一般。

在这个场景下，我的偏好是：千问app > DeepSeek > ChatGPT

测试4：文本总结

在这个场景里，我都是把上万字的最近段永平接受雪球CEO采访的视频播客的字幕发给了AI，然后让他们帮我总结其中段永平对AI的观点。

让我比较意外的是，这三个产品都能无压力吞下几万字的输入，而且确实都总结到了关键点。不过，对于一个总结来说，我希望内容是既有深度，又有原文引用，去说明为何有这样的结论的，细节是什么。

从这个视角来说，DeepSeek总结的结果太简单了，只有结论没有引用。千问做的好了不少，直接引用了不少段永平在视频播客中的原文表述，比如「至少要惨和一下，不要miss掉」「买股票就是买公司」「阿猫阿狗都跟着涨」，从这些细节可以去生动理解段永平的结论。

而ChatGPT则是在这个问题上做了更深度思考，把不同片段中内容的观点综合了起来，所以结论在引用原文的前提下有了更深度的探讨。

在这个场景下，我的偏好是：ChatGPT > 千问app > DeepSeek

所以，上面四项测试里，千问app有两次第一，一次并列第一，一次第二，称之为中国的ChatGPT并不过分。

这不是终点，是起点

所以，千问的出现，意味着什么？

1. 中国AI从追赶到并跑

技术上，Qwen3-Max全球第三，和GPT、Claude在同一梯队。生态上，17万衍生模型，甚至超过了Meta的Llama。

过去，我们跟着美国跑，模型晚一年，能力差一截。现在，我们和美国同步，甚至某些方面领先。

2. AI平权时代到来

ChatGPT Plus $20/月，不便宜。千问完全免费，功能全开，国内直接访问。

人人可用，门槛够低。

3. 应用落地加速

阿里的商业场景丰富：淘宝、天猫、钉钉、高德、夸克。大胆设想千问有机会可以打通这些产品，真正成为”AI助理”。

想象一下：你在钉钉开会，千问自动生成会议纪要。你在淘宝购物，千问帮你分析哪个商品性价比最高。你在高德导航，千问提醒你路上有什么好吃的。

这些场景，ChatGPT做不到。因为它只是一个产品，千问背后是一个生态。

中国的ChatGPT，不是梦想，而是现实。这不是终点，是起点。

逸尘的AI知识库

探索

横扫硅谷的千问_杀回国内了