OpenAI新模型gpt-oss-120b怎么样？三大场景实测首发（对比GLM-4.5-Air）

原创花叔花叔 2025-08-07 16:12

原文地址: https://mp.weixin.qq.com/s/deP4NsRrJTSn0C96TxNzdw

互动数据

阅读：1371
点赞：12
转发：44
喜欢：4
留言：5

Claude Opus 4.1、gpt-oss-120b、Google Genie 3，看到又蹦出的这一堆新模型你是不是要懵了…昨天可以说是AI领域的疯狂星期三了。

我在凌晨一点看到Anthropic发布Claude Opus 4.1时还稍稍有点兴奋，快速写了这么篇介绍文章👇

Claude Opus 4.1模型发布，OpenAI继续被拉开差距

写完发布之后，看了眼X，发现糟了，写早了。OpenAI又给我整出了gpt-oss-120b和gpt-oss-20b这两个开源模型。

再到第二天一早醒来，看到Google发布世界模型Genie 3，我彻底感觉麻了…科技博主的命也是命啊，真写不过来了。

不过，OpenAI这次的发布还是挺有意思，值得聊聊的：

一是这代表OpenAI再次Open了，gpt-oss是OpenAI时隔6年，继GPT-2之后首次发布开源权重语言模型；

二是对LLM开源生态来说，本来开源模型的SOTA之争早就成了中国的内部竞争，DeepSeek、Kimi、Qwen、智谱这几家近期轮流坐上开源模型的头把交椅，而OpenAI的入局还是给这场本来已经结束的战争增添了不少变数，开源SOTA模型似乎又要回到中美竞争的格局了。

01 gpt-oss-120b到底怎么样？

首先是参数规模。OpenAI的gpt-oss-120b拥有1170亿总参数，其中每次推理仅激活51亿参数，占比仅为4.4%。这种超稀疏的设计，使得gpt-oss-120b在处理结构化和严密逻辑任务时，推理效率和性能极其突出。

其次是架构设计上的独特性。gpt-oss系列同样采用了混合专家（MoE）架构，并原生支持MXFP4量化方案，用官方的话说是能够高效地在 80G GPU的高性能电脑上运行？

Excuse me？80G？谁家好人家用的电脑能配一张英伟达H100 GPU呢😓

（外网的网友和我有同样的疑问）

所以，对普通用户来说，暂时就别想着在自己电脑上部署gpt-oss-120b了，老老实实等第三方平台的API，或者使用OpenAI提供的体验平台去试试吧。

从公布的benchmark上，OpenAI的这个新开源模型在数学（AIME）、推理以及编程（Codeforces）上的能力比较强。但是就历史情况来说，OpenAI模型的编程能力只停留在跑分中。

02 gpt-oss-120b VS GLM-4.5-Air

所以，OpenAI这个新开源模型到底怎么样，我觉得需要测一测。

尤其是，如果我们只把它放在开源模型的行列中，去和国产开源模型掰掰手腕，它会表现如何呢？我打算拿前几天文章里介绍过的智谱最新的模型去做评测。

Claude Code + GLM-4.5，最强性价比编程组合教程首发

从公平性的角度看，我没选智谱最强的总参数量达到3550亿的模型GLM-4.5去做对比，而是拿了智谱更轻量级，参数量规模和gpt-oss-120b接近的GLM-4.5-Air，它同样是MoE架构的混合专家模型，GLM-4.5-Air的参数规模略小一些，总参数1060亿，每次激活参数是120亿，占比达到11.3%。这个更高的激活比例，意味着GLM-4.5-Air在泛化能力和跨领域综合表现上会更为出色，特别是在开放性任务，比如软件开发、创意生成和多语言翻译等场景。

注：由于都是开源模型，部署方式和API调用的系统提示词似乎都会影响模型表现，所以为了保证评测的公平性，这两个模型我都通过他们的官方网页版直接使用:

1）gpt-oss-120b: https://gpt-oss.com/ Reasoning level选择High的状态

2）GLM-4.5-Air: https://chat.z.ai/ 打开“自动推理”，关闭“工具”中的全网搜索功能

评测1：物理逻辑模拟

我们先来试一个很经典的测试模型物理逻辑模拟能力的编程题，就是让AI写一个有20个小球在旋转的六边形中弹跳的python脚本，这个问题的提示词风格和类型有很多，我自己调整迭代了个中文版本的，方便大家理解和复用👇

编写一个 Python 程序，在一个旋转的 六边形内部模拟 20 个小球弹跳。

GLM-4.5-Air的效果如下👇

gpt-oss-120b的效果👇

GLM-4.5-Air胜，gpt-oss-120b有些很奇怪的表现，比如小球卡在多边形的边上，以及，小球会逐渐爆出，越蹦越少。测完这个任务，我已经开始对gpt-oss-120b怎么能在Codeforces跑出那么高分有疑问了。而接下来的一个任务对比，则可能会让你大跌眼镜。

评测2：用html创建原型

接下来，我们再试一个我很常用的让模型生成app原型界面的任务，这个任务既可以测试模型的前端代码撰写能力，也能比较好的评估模型的设计审美。

因为这次不是在AI Coding工具中调用大模型，而是直接使用网页版做单次生成，所以我简单调整了下我的提示词要求，只让模型生成app首页一个界面的设计👇

我想开发一个拥有播客、视频、图文等多种内容形式的社区app，现在需要输出高保真的原型图，请通过以下方式帮我完成app首页的原型设计，并确保该原型界面可以直接用于开发：

先来看下GLM-4.5-Air的效果，不能说很惊艳，但很符合我预计，属于中规中矩的设计风格，从Claude 4.0以来，比较顶尖的Coding模型大致都会有类似表现。

GLM-4.5-Air

再来看下gpt-oss-120b的效果，emmm…我都不好意思贴图，如果不是我自己测出来的，我甚至会觉得我这是特意给OpenAI写的黑稿😓

gpt-oss-120b

后面尝试过帮gpt-oss-120b挽尊，又尝试了几次抽卡，但还是不行，事实确实就这么糟…

我仔细看了看gpt-oss-120b为我生成的html代码，算是发现了一点问题所在：让你给我写代码，你“…省略”是个怎么回事…

…

我的这份无语也省略了。

评测3：逻辑推理题

再测代码问题的话，就是对OpenAI的不礼貌了…所以，我们还是跑点别的任务吧，比如逻辑推理。

背景：有五栋并排的房子，每栋房子的颜色都不同。每栋房子里都住着一个不同国籍的人。每个人都喝不同的饮料，抽不同品牌的雪茄，养不同的宠物。 已知条件：

在这个问题上，GLM-4.5-Air和gpt-oss-120b都给了我正确答案：德国人养鱼

GLM-4.5-Air

gpt-oss-120b

不过整个过程中，gpt-oss-120b的思考速度让我感觉是很快，我测了两次，分别是思考了6秒钟和36秒，而GLM-4.5-Air好像是想得有点过多和过于谨慎了，大概花了90秒才给出答案，所以这个问题就当是推理能力一致的情况下，gpt-oss-120b以速度优势小胜吧。

03 写在最后

通过上面的三组测试，我自己的感受是，gpt-oss-120b这个模型离开源模型的SOTA还有点距离，包括他们发出的benchmark分数也像吴恩达所说的，我们可能还需要再期待下第三方的公允测试才行。

以及，我自己不是技术出身，但是我的感觉是MoE架构的大模型，如果激活参数太少的话，做起依赖逻辑的数学、推理题可能问题不大，但是在知识的准确性上会出些问题，就像我们都知道的“大模型是互联网知识的模糊压缩”，参数量越小，压缩率越高，所看见的知识也就越模糊。

所以，51亿的激活参数给了gpt-oss-120b更快的推理速度，但牺牲的就是你所获得结果的准确性，不管是代码中一个开源图片的索引链接，还是你想知道的关于这个世界的任何知识。

我很高兴OpenAI进入开源模型领域搅局，我们有机会看到更激烈的开源大模型的“巅峰对决”，但是就这一刻来说，我不会把编程的任务交给gpt-oss-120b，或者交给任何的OpenAI模型。

逸尘的AI知识库

探索

OpenAI新模型gpt_oss_120b怎么样_三大场景实测首发（对比GLM_4_5_Air）

OpenAI新模型gpt-oss-120b怎么样？三大场景实测首发（对比GLM-4.5-Air）

互动数据

01

gpt-oss-120b到底怎么样？

02

gpt-oss-120b VS GLM-4.5-Air

评测1：物理逻辑模拟

评测2：用html创建原型

评测3：逻辑推理题

03

写在最后

关系图谱

目录