Claude Opus 4.1模型发布,OpenAI继续被拉开差距

原创 花叔 花叔 2025-08-06 01:31

原文地址: https://mp.weixin.qq.com/s/-fbyUkDuS_7CBU8oxG1PvA

互动数据

  • 阅读:3860
  • 点赞:32
  • 转发:134
  • 喜欢:9
  • 留言:13

OpenAI从2022年11月发布ChatGPT以来,一直都是大模型领域的绝对领先者,尤其是在C端用户市场,他们所积累的品牌优势和数据聊天历史数据都算是他们留存C端用户的有力手段。

但上个周末有个数据显示,Anthropic的ARR(年度经常性收入)达到了50亿美元,尤其是在API调用的市场,他们的收入达到了31亿美元,首次超过OpenAI。而这31亿中,有14亿美元是Cursor、Github Copilot这两个AI Coding工具贡献的。

对于真正用AI辅助编程的开发者来说,Anthropic的Claude模型处在领先地位是毋庸置疑的。就像前段时间Kimi K2、Qwen3 Coder、GLM-4.5等模型发布时,大家都说的是自己以低得多的成本接近Claude 4的水平,而没有任何一家会把OpenAI的模型作为对标对象。

一、性能表现

而就在今天凌晨,Anthropic把他们的领先优势继续拉大了一小步,他们发布了在各方面都更强的Claude Opus 4.1模型。这个模型基本在所有指标,包括 agentic 编程任务、复杂推理等方面,都超越 Opus 4。

A benchmark table comparing Claude Opus 4.1 to prior Claude models and other public models

并且不像Sam Altman那么喜欢吊胃口,故弄玄虚的,他们新模型发布后在Claude官网、API、Claude Code等渠道都统一可用🙆,定价与原版一致。

Opus 4.1 在 SWE‑bench Verified 中取得 74.5% 的新高,在全球模型评测中处于领先地位。

官方发布文档提到他们在多文件重构、大规模代码库 bug 定位、细节校验等场景,比 Opus 4 有明显进步。

社区反馈:GitHub 团队提出:多文件重构准确度更高,更少引入新 bug。某电子商务企业评测反馈:Opus 4.1 能精确定位错误行,调试效率显著提升。

二、快速使用Opus 4.1的方式

✅ API 调用方式

由于价格一致,Anthropic推荐所有用户从 Opus 4 升级到 4.1,调用模型 ID 为:

claude-opus-4-1-20250805

✅ Claude Code使用方式

  • Claude Code CLI 内直接支持 Opus 4.1

  • 无需更改参数,可继续使用原来的对话与 agent 工作流

  • 表现升级明显,交互反馈速度及准确性都有显著提升

✅ Cursor中使用

Cursor作为Anthropic的大客户,也在第一时间接入了Opus 4.1模型,可以直接使用了。

✅ Claude官网使用方式

只要有订阅Claude模型,在Claude官网就可以直接使用Opus 4.1模型了。

三、Agentic 编程与工作流启示

这次升级我还没来得及测试,毕竟提升也没那么大,我估计很难通过短期测试感受到升级的内容,需要更多在项目中体会。从这次Opus 4.1 发布的System Card来说,他们的核心升级方向如下:

  1. 更精准的编码辅助 无论是解决 bug,还是生成测试、编写重构方案,Claude 对命令和调用意图理解更加清晰。

  2. 改进代码导航与多模块协作 在跨模块重构、API 改动、组件更新等场景中,生成结果精准,不再容易因为路径复杂而跑偏。

  3. 思考力提升 在复杂调试或探索性任务中,Opus 4.1 对上下文依赖、依赖链背景信息追踪能力都有提升。

🚀 顺便,我最近在高频使用Claude Code,给大家提供些Claude Code的高效使用建议:

  • 主动询问:“think harder” 提供更多思考预算

  • 先让它输出计划,确认后才让它动手写代码

  • 多终端并行操作:前端一个会话,后端一个,测试另一个

  • 使用 /clear 清除上下文,避免积累噪音

  • 配置 CLAUDE.md:项目说明书让 Claude 更快适应项目配置

  • 定义 slash commands:将复杂操作封装为自然语言一键调用命令

  • 启用 headless 模式:构建自动 issue 分流、PR 审查流水线脚本

一些展望

Claude Opus 4.1 模型本身显然只是个小版本的更新,但Anthropic也借这个模型证明了他们有持续迭代提升模型Coding水平的能力。并且这个水平领先整个行业3-6个月的能力。

而且因为Coding和Agent是2025年至今都清晰得不能再清晰的趋势了,他们是真的能为用户为企业解决实实在在的问题,他们也是tokens消耗的大户,所以,不管是OpenAI还是国内的开源大模型们,大家都在这块持续内卷,试图做出更适应Agentic和Coding需求,并且更快速、更便宜的模型。

作为一个以来AI Coding模型尝试创造些有趣的小东西的人来说,我很乐见这些变化和竞争。

就目前而言,在不考虑成本的情况下哎,Claude Opus 4.1 是最值得升级使用的编程模型。

它在 reasoning、编码能力、 agentic 搜索方面均超过前作,特别适合迭代 workflows。无论你用 Claude Code 处理业务逻辑,它都意味着更快速、更准确。

如果考虑结合成本因素考量,你期望用Claude Opus 10%以内的成本获得其90%的性能的话,也可以试试我上个月推荐的Kimi K2和GLM-4.5的方案。

说实话,我还挺期待今年有个竞争者横空出世,超越Claude,为我们提供一个不止是接近,而是真的更强的编程模型的。

你猜会是xAI、OpenAI,还是DeepSeek、Kimi、Qwen、智谱呢?