OpenAI发布GPT-5!这是一篇很主观的解读…

原创 花叔 花叔 2025-08-08 05:50

原文地址: https://mp.weixin.qq.com/s/5GlDzNGVYmIi7PIQsPSBqg

互动数据

  • 阅读:2790
  • 点赞:46
  • 转发:116
  • 喜欢:9
  • 留言:10

凌晨1点,OpenAI 终于发布了万众期待的 GPT-5。

距离 GPT-4 发布,已经过去整整两年半了。我还清晰记得那是2023年的3月14号,距离我从大厂离开还不到一周时间。那个时刻,对AI的兴奋和热情完全掩盖了面对未知前路的恐惧。

在这两年多里,OpenAI其实已经发布了十多个不同的模型(包括什么4o、4.1、4.5、o1、o3、o4……模型名字快赶上显卡厂商了)。

但这次,他们终于喊出了GPT-5的名号。

所以,它到底有什么新变化?值不值得你切换?Claude 4.1 是不是要下岗了?

在展开介绍之前,我们先来看看一个小乌龙:

世界顶级AI公司也能做出这种PPT?


在发布会的图表里,OpenAI展示了一个模型评估的对比:

👇你看这个数字,52.8 比 69.1 还高,你信吗?

而且,这个错误还不止一次

我服了这个草台班子的世界。

我合理怀疑,这PPT要是让GPT-5自己来做,可能反而更靠谱。

GPT-5 三个版本,立刻上线?


OpenAI这次一口气发布了三个版本的GPT-5 API:GPT-5、GPT-5 Mini、GPT-5 Nano

官网内提供的版本估计也就用这几个大小不一的模型做些小改造。OpenAI官方说是所有用户今天都能用上GPT5。

但截至我写文章时,ChatGPT官网还是老样子,没更新。

反倒是我在Cursor里已经能用上 GPT-5 了,OpenAI:你是不是舔Cursor舔猛了?

这里插播个有趣的小故事,其实OpenAI是Cursor最早的投资者之一,但是随着Claude模型能力的增强,Cursor逐渐和Anthropic变得眉来眼去,经常有深度交流和联合发布了。


但随着现在Anthropic出了个和Cursor正面竞争的Claude Code,这三者的关系又迎来了有趣的变数,敌人的敌人,再次成了朋友。


“自适应思考”:抄了Claude的作业?


这次GPT-5最大的变化之一,是加入了自适应思考能力

也就是说,模型会根据你的问题,动态决定要不要深度思考、思考多久。

这听起来很先进,你不需要纠结选GPT-4o还是o3还是o4-mini之类的模型了,但实际上……

早在 Claude 的 CEO 就提出过类似的理念 —— 让模型既能快速直觉(系统一),又能深度推理(系统二),而不是二选一。Claude模型从3.7开始也就是这么设计的。

所以OpenAI这波,多少有点跟随者的味道。

发布会最大重点:全力压注编程能力

发布会超过一半时间都在讲「编程能力」和「Agent执行」。

  • 请来了 Cursor 的 CEO 现场演示

  • 实测代码修改、网页生成、Agent 多步骤推理

你从这个重点方向也能看出:

OpenAI****很清楚,现在Anthropic靠 Claude 在 API 市场上抢走了大量写代码的用户和收入

一组数据告诉你,现在OpenAI真有点急

  • OpenAI 总年收入:约 125 亿美元

  • Anthropic 总年收入:约 50 亿美元(其中 API 收入已反超 OpenAI

而且 Anthropic 的 API 收入中,显然主要来自写代码的用户(Cursor、Github Copilot等)。

这也是 OpenAI 为什么在 GPT-5 上要主打「编程」,它是真想在API市场和Anthropic刚一刚。

GPT-5 vs Claude 4.1,代码实测结果来了


我也挑了发布会里两个 GPT-5 展示案例,复制了 Prompt,用 Claude 4.1 在 Cursor 中重跑了一遍。

✅ 案例1:学习法语的卡牌游戏网站

Create a beautiful, highly interactive web app for my partner, an English speaker, to learn French.

GPT-5 演示的效果很不错,多个卡牌、页面抽卡逻辑也在线。

但我用 Claude 4.1 复现时,发现页面结构也基本一致,只是交互有点小bug。

结论:表现接近,GPT-5略强,但不是质变。

✅ 案例2:生成创业公司财务看板

Please create a finance dashboard for my Series D startup, which makes digital fidget spinners for Al agents.

GPT-5 的可视化仪表盘做得很精致。

但 Claude 4.1 给出的交互式图表也几乎一样,甚至细节上更有设计感。

结论:不分上下,我个人更偏爱 Claude 的审美。

那GPT-5到底强在哪?值不值得用?


OpenAI官方当然是放了一堆Benchmark,什么AIME数学 100%,SWE-Bench 74.9%……

但我想说句实话:

这些Benchmark的价值越来越低了。

高强度数理逻辑对普通人来说没意义;从98.4%提升到99%,对真实使用体验没多少帮助;用户更关心的是它是否能帮我写得更好、写得更自然。

🚀 最后


GPT-5说实话是有点令人失望了,更像是一次 GPT-4.6 式的升级。

或者,也许,我们再也不应该以2022年11月的ChatGPT、2023年3月的GPT-4那种发布的震撼级别来要求OpenAI了。

OpenAI在那刻时刻就已经完成了他们石破天惊的历史使命,把大语言模型和训练方法带给了全世界。现在模型能力的升级已经进入了深水区,也许我们后面真的只能一次次看到挤牙膏式的性能提升,或者成本降低。

可惜,AGI还没来

幸好,AGI还没来