OpenAI新模型gpt-oss-120b怎么样?三大场景实测首发(对比GLM-4.5-Air)
原创 花叔 花叔 2025-08-07 16:12
互动数据
- 阅读:1371
- 点赞:12
- 转发:44
- 喜欢:4
- 留言:5
Claude Opus 4.1、gpt-oss-120b、Google Genie 3,看到又蹦出的这一堆新模型你是不是要懵了…昨天可以说是AI领域的疯狂星期三了。
我在凌晨一点看到Anthropic发布Claude Opus 4.1时还稍稍有点兴奋,快速写了这么篇介绍文章👇
Claude Opus 4.1模型发布,OpenAI继续被拉开差距
写完发布之后,看了眼X,发现糟了,写早了。OpenAI又给我整出了gpt-oss-120b和gpt-oss-20b这两个开源模型。
再到第二天一早醒来,看到Google发布世界模型Genie 3,我彻底感觉麻了…科技博主的命也是命啊,真写不过来了。
不过,OpenAI这次的发布还是挺有意思,值得聊聊的:
一是这代表OpenAI再次Open了,gpt-oss是OpenAI时隔6年,继GPT-2之后首次发布开源权重语言模型;
二是对LLM开源生态来说,本来开源模型的SOTA之争早就成了中国的内部竞争,DeepSeek、Kimi、Qwen、智谱这几家近期轮流坐上开源模型的头把交椅,而OpenAI的入局还是给这场本来已经结束的战争增添了不少变数,开源SOTA模型似乎又要回到中美竞争的格局了。
01
gpt-oss-120b到底怎么样?
首先是参数规模。OpenAI的gpt-oss-120b拥有1170亿总参数,其中每次推理仅激活51亿参数,占比仅为4.4%。这种超稀疏的设计,使得gpt-oss-120b在处理结构化和严密逻辑任务时,推理效率和性能极其突出。
其次是架构设计上的独特性。gpt-oss系列同样采用了混合专家(MoE)架构,并原生支持MXFP4量化方案,用官方的话说是能够高效地在 80G GPU的高性能电脑上运行?
Excuse me?80G?谁家好人家用的电脑能配一张英伟达H100 GPU呢😓
(外网的网友和我有同样的疑问)
所以,对普通用户来说,暂时就别想着在自己电脑上部署gpt-oss-120b了,老老实实等第三方平台的API,或者使用OpenAI提供的体验平台去试试吧。
从公布的benchmark上,OpenAI的这个新开源模型在数学(AIME)、推理以及编程(Codeforces)上的能力比较强。但是就历史情况来说,OpenAI模型的编程能力只停留在跑分中。
02
gpt-oss-120b VS GLM-4.5-Air
所以,OpenAI这个新开源模型到底怎么样,我觉得需要测一测。
尤其是,如果我们只把它放在开源模型的行列中,去和国产开源模型掰掰手腕,它会表现如何呢?我打算拿前几天文章里介绍过的智谱最新的模型去做评测。
Claude Code + GLM-4.5,最强性价比编程组合教程首发
从公平性的角度看,我没选智谱最强的总参数量达到3550亿的模型GLM-4.5去做对比,而是拿了智谱更轻量级,参数量规模和gpt-oss-120b接近的GLM-4.5-Air,它同样是MoE架构的混合专家模型,GLM-4.5-Air的参数规模略小一些,总参数1060亿,每次激活参数是120亿,占比达到11.3%。这个更高的激活比例,意味着GLM-4.5-Air在泛化能力和跨领域综合表现上会更为出色,特别是在开放性任务,比如软件开发、创意生成和多语言翻译等场景。
注:由于都是开源模型,部署方式和API调用的系统提示词似乎都会影响模型表现,所以为了保证评测的公平性,这两个模型我都通过他们的官方网页版直接使用:
1)gpt-oss-120b: https://gpt-oss.com/ Reasoning level选择High的状态
2)GLM-4.5-Air: https://chat.z.ai/ 打开“自动推理”,关闭“工具”中的全网搜索功能
评测1:物理逻辑模拟
我们先来试一个很经典的测试模型物理逻辑模拟能力的编程题,就是让AI写一个有20个小球在旋转的六边形中弹跳的python脚本,这个问题的提示词风格和类型有很多,我自己调整迭代了个中文版本的,方便大家理解和复用👇
编写一个 Python 程序,在一个旋转的 六边形内部模拟 20 个小球弹跳。
GLM-4.5-Air的效果如下👇
gpt-oss-120b的效果👇
GLM-4.5-Air胜,gpt-oss-120b有些很奇怪的表现,比如小球卡在多边形的边上,以及,小球会逐渐爆出,越蹦越少。测完这个任务,我已经开始对gpt-oss-120b怎么能在Codeforces跑出那么高分有疑问了。而接下来的一个任务对比,则可能会让你大跌眼镜。
评测2:用html创建原型
接下来,我们再试一个我很常用的让模型生成app原型界面的任务,这个任务既可以测试模型的前端代码撰写能力,也能比较好的评估模型的设计审美。
因为这次不是在AI Coding工具中调用大模型,而是直接使用网页版做单次生成,所以我简单调整了下我的提示词要求,只让模型生成app首页一个界面的设计👇
我想开发一个拥有播客、视频、图文等多种内容形式的社区app,现在需要输出高保真的原型图,请通过以下方式帮我完成app首页的原型设计,并确保该原型界面可以直接用于开发:
先来看下GLM-4.5-Air的效果,不能说很惊艳,但很符合我预计,属于中规中矩的设计风格,从Claude 4.0以来,比较顶尖的Coding模型大致都会有类似表现。
GLM-4.5-Air
再来看下gpt-oss-120b的效果,emmm…我都不好意思贴图,如果不是我自己测出来的,我甚至会觉得我这是特意给OpenAI写的黑稿😓
gpt-oss-120b
后面尝试过帮gpt-oss-120b挽尊,又尝试了几次抽卡,但还是不行,事实确实就这么糟…
我仔细看了看gpt-oss-120b为我生成的html代码,算是发现了一点问题所在:让你给我写代码,你“…省略”是个怎么回事…
…
我的这份无语也省略了。
评测3:逻辑推理题
再测代码问题的话,就是对OpenAI的不礼貌了…所以,我们还是跑点别的任务吧,比如逻辑推理。
背景:有五栋并排的房子,每栋房子的颜色都不同。每栋房子里都住着一个不同国籍的人。每个人都喝不同的饮料,抽不同品牌的雪茄,养不同的宠物。 已知条件:
在这个问题上,GLM-4.5-Air和gpt-oss-120b都给了我正确答案:德国人养鱼
GLM-4.5-Air
gpt-oss-120b
不过整个过程中,gpt-oss-120b的思考速度让我感觉是很快,我测了两次,分别是思考了6秒钟和36秒,而GLM-4.5-Air好像是想得有点过多和过于谨慎了,大概花了90秒才给出答案,所以这个问题就当是推理能力一致的情况下,gpt-oss-120b以速度优势小胜吧。
03
写在最后
通过上面的三组测试,我自己的感受是,gpt-oss-120b这个模型离开源模型的SOTA还有点距离,包括他们发出的benchmark分数也像吴恩达所说的,我们可能还需要再期待下第三方的公允测试才行。
以及,我自己不是技术出身,但是我的感觉是MoE架构的大模型,如果激活参数太少的话,做起依赖逻辑的数学、推理题可能问题不大,但是在知识的准确性上会出些问题,就像我们都知道的“大模型是互联网知识的模糊压缩”,参数量越小,压缩率越高,所看见的知识也就越模糊。
所以,51亿的激活参数给了gpt-oss-120b更快的推理速度,但牺牲的就是你所获得结果的准确性,不管是代码中一个开源图片的索引链接,还是你想知道的关于这个世界的任何知识。
我很高兴OpenAI进入开源模型领域搅局,我们有机会看到更激烈的开源大模型的“巅峰对决”,但是就这一刻来说,我不会把编程的任务交给gpt-oss-120b,或者交给任何的OpenAI模型。