OpenAI新模型gpt-oss-120b怎么样?三大场景实测首发(对比GLM-4.5-Air)

原创 花叔 花叔 2025-08-07 16:12

原文地址: https://mp.weixin.qq.com/s/deP4NsRrJTSn0C96TxNzdw

互动数据

  • 阅读:1371
  • 点赞:12
  • 转发:44
  • 喜欢:4
  • 留言:5

Claude Opus 4.1、gpt-oss-120b、Google Genie 3,看到又蹦出的这一堆新模型你是不是要懵了…昨天可以说是AI领域的疯狂星期三了。

我在凌晨一点看到Anthropic发布Claude Opus 4.1时还稍稍有点兴奋,快速写了这么篇介绍文章👇

Claude Opus 4.1模型发布,OpenAI继续被拉开差距

写完发布之后,看了眼X,发现糟了,写早了。OpenAI又给我整出了gpt-oss-120b和gpt-oss-20b这两个开源模型。

再到第二天一早醒来,看到Google发布世界模型Genie 3,我彻底感觉麻了…科技博主的命也是命啊,真写不过来了。

不过,OpenAI这次的发布还是挺有意思,值得聊聊的:

一是这代表OpenAI再次Open了,gpt-oss是OpenAI时隔6年,继GPT-2之后首次发布开源权重语言模型;

二是对LLM开源生态来说,本来开源模型的SOTA之争早就成了中国的内部竞争,DeepSeek、Kimi、Qwen、智谱这几家近期轮流坐上开源模型的头把交椅,而OpenAI的入局还是给这场本来已经结束的战争增添了不少变数,开源SOTA模型似乎又要回到中美竞争的格局了。

01

gpt-oss-120b到底怎么样?

首先是参数规模。OpenAI的gpt-oss-120b拥有1170亿总参数,其中每次推理仅激活51亿参数,占比仅为4.4%。这种超稀疏的设计,使得gpt-oss-120b在处理结构化和严密逻辑任务时,推理效率和性能极其突出。

其次是架构设计上的独特性。gpt-oss系列同样采用了混合专家(MoE)架构,并原生支持MXFP4量化方案,用官方的话说是能够高效地在 80G GPU的高性能电脑上运行?

Excuse me?80G?谁家好人家用的电脑能配一张英伟达H100 GPU呢😓

(外网的网友和我有同样的疑问)

所以,对普通用户来说,暂时就别想着在自己电脑上部署gpt-oss-120b了,老老实实等第三方平台的API,或者使用OpenAI提供的体验平台去试试吧。

从公布的benchmark上,OpenAI的这个新开源模型在数学(AIME)、推理以及编程(Codeforces)上的能力比较强。但是就历史情况来说,OpenAI模型的编程能力只停留在跑分中。

02

gpt-oss-120b VS GLM-4.5-Air

所以,OpenAI这个新开源模型到底怎么样,我觉得需要测一测。

尤其是,如果我们只把它放在开源模型的行列中,去和国产开源模型掰掰手腕,它会表现如何呢?我打算拿前几天文章里介绍过的智谱最新的模型去做评测。

Claude Code + GLM-4.5,最强性价比编程组合教程首发

从公平性的角度看,我没选智谱最强的总参数量达到3550亿的模型GLM-4.5去做对比,而是拿了智谱更轻量级,参数量规模和gpt-oss-120b接近的GLM-4.5-Air,它同样是MoE架构的混合专家模型,GLM-4.5-Air的参数规模略小一些,总参数1060亿,每次激活参数是120亿,占比达到11.3%。这个更高的激活比例,意味着GLM-4.5-Air在泛化能力和跨领域综合表现上会更为出色,特别是在开放性任务,比如软件开发、创意生成和多语言翻译等场景。

注:由于都是开源模型,部署方式和API调用的系统提示词似乎都会影响模型表现,所以为了保证评测的公平性,这两个模型我都通过他们的官方网页版直接使用:

1)gpt-oss-120b: https://gpt-oss.com/  Reasoning level选择High的状态

2)GLM-4.5-Air: https://chat.z.ai/ 打开“自动推理”,关闭“工具”中的全网搜索功能

评测1:物理逻辑模拟

我们先来试一个很经典的测试模型物理逻辑模拟能力的编程题,就是让AI写一个有20个小球在旋转的六边形中弹跳的python脚本,这个问题的提示词风格和类型有很多,我自己调整迭代了个中文版本的,方便大家理解和复用👇

编写一个 Python 程序,在一个旋转的 六边形内部模拟 20 个小球弹跳。

GLM-4.5-Air的效果如下👇

gpt-oss-120b的效果👇

GLM-4.5-Air胜,gpt-oss-120b有些很奇怪的表现,比如小球卡在多边形的边上,以及,小球会逐渐爆出,越蹦越少。测完这个任务,我已经开始对gpt-oss-120b怎么能在Codeforces跑出那么高分有疑问了。而接下来的一个任务对比,则可能会让你大跌眼镜。

评测2:用html创建原型

接下来,我们再试一个我很常用的让模型生成app原型界面的任务,这个任务既可以测试模型的前端代码撰写能力,也能比较好的评估模型的设计审美。

因为这次不是在AI Coding工具中调用大模型,而是直接使用网页版做单次生成,所以我简单调整了下我的提示词要求,只让模型生成app首页一个界面的设计👇

我想开发一个拥有播客、视频、图文等多种内容形式的社区app,现在需要输出高保真的原型图,请通过以下方式帮我完成app首页的原型设计,并确保该原型界面可以直接用于开发:

先来看下GLM-4.5-Air的效果,不能说很惊艳,但很符合我预计,属于中规中矩的设计风格,从Claude 4.0以来,比较顶尖的Coding模型大致都会有类似表现。

GLM-4.5-Air

再来看下gpt-oss-120b的效果,emmm…我都不好意思贴图,如果不是我自己测出来的,我甚至会觉得我这是特意给OpenAI写的黑稿😓

gpt-oss-120b

后面尝试过帮gpt-oss-120b挽尊,又尝试了几次抽卡,但还是不行,事实确实就这么糟…

我仔细看了看gpt-oss-120b为我生成的html代码,算是发现了一点问题所在:让你给我写代码,你“…省略”是个怎么回事…

我的这份无语也省略了。

评测3:逻辑推理题

再测代码问题的话,就是对OpenAI的不礼貌了…所以,我们还是跑点别的任务吧,比如逻辑推理。

背景:有五栋并排的房子,每栋房子的颜色都不同。每栋房子里都住着一个不同国籍的人。每个人都喝不同的饮料,抽不同品牌的雪茄,养不同的宠物。 已知条件:

在这个问题上,GLM-4.5-Air和gpt-oss-120b都给了我正确答案:德国人养鱼

GLM-4.5-Air

gpt-oss-120b

不过整个过程中,gpt-oss-120b的思考速度让我感觉是很快,我测了两次,分别是思考了6秒钟和36秒,而GLM-4.5-Air好像是想得有点过多和过于谨慎了,大概花了90秒才给出答案,所以这个问题就当是推理能力一致的情况下,gpt-oss-120b以速度优势小胜吧。

03

写在最后

通过上面的三组测试,我自己的感受是,gpt-oss-120b这个模型离开源模型的SOTA还有点距离,包括他们发出的benchmark分数也像吴恩达所说的,我们可能还需要再期待下第三方的公允测试才行。

以及,我自己不是技术出身,但是我的感觉是MoE架构的大模型,如果激活参数太少的话,做起依赖逻辑的数学、推理题可能问题不大,但是在知识的准确性上会出些问题,就像我们都知道的“大模型是互联网知识的模糊压缩”,参数量越小,压缩率越高,所看见的知识也就越模糊。

所以,51亿的激活参数给了gpt-oss-120b更快的推理速度,但牺牲的就是你所获得结果的准确性,不管是代码中一个开源图片的索引链接,还是你想知道的关于这个世界的任何知识。

我很高兴OpenAI进入开源模型领域搅局,我们有机会看到更激烈的开源大模型的“巅峰对决”,但是就这一刻来说,我不会把编程的任务交给gpt-oss-120b,或者交给任何的OpenAI模型。