Claude Opus 4.1模型发布,OpenAI继续被拉开差距
原创 花叔 花叔 2025-08-06 01:31
互动数据
- 阅读:3860
- 点赞:32
- 转发:134
- 喜欢:9
- 留言:13
OpenAI从2022年11月发布ChatGPT以来,一直都是大模型领域的绝对领先者,尤其是在C端用户市场,他们所积累的品牌优势和数据聊天历史数据都算是他们留存C端用户的有力手段。
但上个周末有个数据显示,Anthropic的ARR(年度经常性收入)达到了50亿美元,尤其是在API调用的市场,他们的收入达到了31亿美元,首次超过OpenAI。而这31亿中,有14亿美元是Cursor、Github Copilot这两个AI Coding工具贡献的。
对于真正用AI辅助编程的开发者来说,Anthropic的Claude模型处在领先地位是毋庸置疑的。就像前段时间Kimi K2、Qwen3 Coder、GLM-4.5等模型发布时,大家都说的是自己以低得多的成本接近Claude 4的水平,而没有任何一家会把OpenAI的模型作为对标对象。
一、性能表现
而就在今天凌晨,Anthropic把他们的领先优势继续拉大了一小步,他们发布了在各方面都更强的Claude Opus 4.1模型。这个模型基本在所有指标,包括 agentic 编程任务、复杂推理等方面,都超越 Opus 4。
并且不像Sam Altman那么喜欢吊胃口,故弄玄虚的,他们新模型发布后在Claude官网、API、Claude Code等渠道都统一可用🙆,定价与原版一致。
Opus 4.1 在 SWE‑bench Verified 中取得 74.5% 的新高,在全球模型评测中处于领先地位。
官方发布文档提到他们在多文件重构、大规模代码库 bug 定位、细节校验等场景,比 Opus 4 有明显进步。
社区反馈:GitHub 团队提出:多文件重构准确度更高,更少引入新 bug。某电子商务企业评测反馈:Opus 4.1 能精确定位错误行,调试效率显著提升。
二、快速使用Opus 4.1的方式
✅ API 调用方式
由于价格一致,Anthropic推荐所有用户从 Opus 4 升级到 4.1,调用模型 ID 为:
claude-opus-4-1-20250805
✅ Claude Code使用方式
-
Claude Code CLI 内直接支持 Opus 4.1
-
无需更改参数,可继续使用原来的对话与 agent 工作流
-
表现升级明显,交互反馈速度及准确性都有显著提升
✅ Cursor中使用
Cursor作为Anthropic的大客户,也在第一时间接入了Opus 4.1模型,可以直接使用了。
✅ Claude官网使用方式
只要有订阅Claude模型,在Claude官网就可以直接使用Opus 4.1模型了。
三、Agentic 编程与工作流启示
这次升级我还没来得及测试,毕竟提升也没那么大,我估计很难通过短期测试感受到升级的内容,需要更多在项目中体会。从这次Opus 4.1 发布的System Card来说,他们的核心升级方向如下:
-
更精准的编码辅助 无论是解决 bug,还是生成测试、编写重构方案,Claude 对命令和调用意图理解更加清晰。
-
改进代码导航与多模块协作 在跨模块重构、API 改动、组件更新等场景中,生成结果精准,不再容易因为路径复杂而跑偏。
-
思考力提升 在复杂调试或探索性任务中,Opus 4.1 对上下文依赖、依赖链背景信息追踪能力都有提升。
🚀 顺便,我最近在高频使用Claude Code,给大家提供些Claude Code的高效使用建议:
-
主动询问:“think harder” 提供更多思考预算
-
先让它输出计划,确认后才让它动手写代码
-
多终端并行操作:前端一个会话,后端一个,测试另一个
-
使用
/clear清除上下文,避免积累噪音 -
配置 CLAUDE.md:项目说明书让 Claude 更快适应项目配置
-
定义 slash commands:将复杂操作封装为自然语言一键调用命令
-
启用 headless 模式:构建自动 issue 分流、PR 审查流水线脚本
一些展望
Claude Opus 4.1 模型本身显然只是个小版本的更新,但Anthropic也借这个模型证明了他们有持续迭代提升模型Coding水平的能力。并且这个水平领先整个行业3-6个月的能力。
而且因为Coding和Agent是2025年至今都清晰得不能再清晰的趋势了,他们是真的能为用户为企业解决实实在在的问题,他们也是tokens消耗的大户,所以,不管是OpenAI还是国内的开源大模型们,大家都在这块持续内卷,试图做出更适应Agentic和Coding需求,并且更快速、更便宜的模型。
作为一个以来AI Coding模型尝试创造些有趣的小东西的人来说,我很乐见这些变化和竞争。
就目前而言,在不考虑成本的情况下哎,Claude Opus 4.1 是最值得升级使用的编程模型。
它在 reasoning、编码能力、 agentic 搜索方面均超过前作,特别适合迭代 workflows。无论你用 Claude Code 处理业务逻辑,它都意味着更快速、更准确。
如果考虑结合成本因素考量,你期望用Claude Opus 10%以内的成本获得其90%的性能的话,也可以试试我上个月推荐的Kimi K2和GLM-4.5的方案。
说实话,我还挺期待今年有个竞争者横空出世,超越Claude,为我们提供一个不止是接近,而是真的更强的编程模型的。
你猜会是xAI、OpenAI,还是DeepSeek、Kimi、Qwen、智谱呢?