AI编程的新起点
原创 AI进化论-花生 花叔 2025-02-19 16:22
互动数据
- 阅读:3480
- 点赞:39
- 转发:168
- 喜欢:15
- 留言:6
编程的本质,不是在试卷上解算法题,而是在混沌中创造秩序。
DeepSeek R1
如果你和我一样,在尝试使用AI编程创造产品的话,应该也受够了最近各个大模型层次不穷的发布报告中的屁话。
因为从OpenAI o1开始,包括最近的DeepSeek R1、OpenAI o3,以及昨天马斯克xAI发布的Grok 3等模型,按Codeforces的评估标准,都是可以在国际编程竞赛拿金牌的水平,远超人类平均水平了。
但是在现实的软件工程中却不是那么回事。
真正用过Cursor AI编程的人都会能感觉到Claude 3.5 Sonnet才是最能打,写实际的软件代码最好的模型。我在我的AI编程知识星球中也一直在跟大家强调没必要赶着去尝试最新的跑分厉害的模型,同时也不要选择任何更低价的“平替”模型,你选择AI编程工具时,首先需要决策和判断的因素就是他们有没有接入Claude 3.5 sonnet模型,这个模型是让AI编程能力跨过可用性临界点的本质。
但,虽然模型能力算是跨过了某个让普通人能够开始编程做小产品的临界点了,你在用的过程中还是会发生不少问题,有一些学习的障碍和门槛还是需要你跨过。
写代码5分钟,改bug两小时也是AI编程的常态了。
OpenAI最近也算是看到了这个问题,这个真正重要的问题,他们引入了一个新的评估LLMs在实际软件工程中的编程能力的评估标准——SWE-Lancer。
新的起点
这个评估集是他们从自由职业者的接单平台Upwork上选出来的。总共包括1488个价值100万美元的任务。
这些任务分为独立开发者任务(IC SWE)和技术管理任务(SWE Manager)。前者是去做代码修复与功能实现,后者是对于不同的任务进行方案决策。
-
独立开发者任务:从15分钟可修复的漏洞到耗时数周的新功能需求。与依赖单元测试的传统基准不同,SWE-Lancer使用专业工程师设计的端到端测试(通过浏览器自动化验证应用行为),并经过三重质量验证。
-
技术管理任务:模型需评审自由职业者提交的竞争性提案并选择最佳方案,最终评估标准与原始工程管理者的决策一致。此类任务需深入理解问题及提案的技术细节,常需结合整个代码库的上下文进行判断。
从开发类型来说有分为客户端应用(前端)逻辑、用户界面/用户体验、服务端逻辑三类,还有个所谓的系统级质量与可靠性任务,但是这个样本量太少了,参考价值不大。
这次评估对OpenAI来说可以说是自揭底裤,赶把这样的真实数据在论文中放出来还是挺值得钦佩的。
当问题复杂到需要权衡商业、人性与技术时,AI依然是幼儿园级别的选手。
就像自动驾驶至今无法处理中国式过马路,AI编程也看不懂老板那句:「这个需求很简单,怎么实现我不管」。
DeepSeek R1
OpenAI这次评估是选择了GPT-4o、o1、Claude 3.5 Sonnet三个模型做测试对比(很奇怪他们为什么不把o3加上),得到的核心结论还挺有趣的,而且可能有些反常识:
1、Claude 3.5 Sonnet依然是最佳的现实世界软件工程的编程模型选择,能完成大约40%的任务;
2、大模型在技术管理任务(SWE Manager)的成功率明显优于独立开发者任务(IC SWE),所以这是说技术管理者更容易被AI替代?
3、AI在服务端逻辑类任务上的成功率优于前端任何和UI/UX任务(尽管一般人现在会判断AI编程更适合用来写前端代码)。
任务类型
技术焦点
典型问题
模型难点
通过率对比
客户端应用逻辑
前端状态与事件处理
API重复调用、权限显示不同步
跨组件状态同步
独立任务:23.9% ✅
用户界面/用户体验
视觉与交互设计
布局错位、动效卡顿
多设备适配、视觉一致性
独立任务:31.7% 🟡
服务端逻辑
后端业务与数据处理
数据库性能瓶颈、接口并发错误
技术债务权衡、系统级影响评估
管理任务:61.5% 🔄
下面有个更细致的表格,Diamond代表OpenAI精选的500多个任务,full表示的是全部1488个任务的表现,其实看full就可以了。Claude 3.5 sonnet基本上都在全面碾压性领先。
所以呢?
所以,这篇论文的发布对我们普通人来说有什么价值。
第一点,我其实是期望帮你认识到,现在AI编程的最佳模型选择依然是Claude 3.5 sonnet,所以如果你希望现在开始构建自己的产品的话,前往不要选歪了。而如果你关注的AI博主里有一些看见任何模型出来都要疯狂推荐,以及对着他们的benchmark打分就下判断的,我建议你可以慎重考虑下是不是值得关注。你应该尝试去选择值得你信任的信息降噪器。现在AI媒体和AI自媒体都太多,你需要更少,而不是更多的信息。
第二点,在论文中,OpenAI提到了几项细节其实值得我们关注。比如同样的o1,如果它用了更多的reasoning时间,或者多次尝试的话,任务成功率是可以显著提高的。所以你可以在一些复杂任务上让AI为你多尝试几次,有时候用不同的模型尝试解bug也会是比较好的选择。
以及我们看到LLM在做技术管理者,在评估和选择方案上是更擅长的,所以在一些困难时刻,你可以让LLM变身技术管理者去选择方案,我在一个bug多次无法解决时会尝试的prompt是:
现在我们遇到了{描述遇到问题的功能}问题,我在界面上看到的情况是{描述你看到的界面信息},终端遇到的问题是{复制代码报错},和这个功能相关的代码是{@代码文件}。现在,请一步步思考和理解我描述的问题,并提出三个最solid的解决方案,不要急着改代码。
这个prompt的特点是为模型提供了充分的上下文信息,引导模型进入了系统二的深思熟虑模式,同时,他也从一个执行者变成了选择不同技术方案的管理者,会拥有更全局性的视角帮助你解决问题。
第三点的话,我觉得我们现在可以等一等,并期待两个月内更好的编程模型产生。因为coding问题确实是经济价值极高(想想程序员工资有多贵吧)且一定程度上可解的问题。尤其是我们可以期待DeepSeek和Anthropic的新模型。
下面是我昨天看到DeepSeek发布了NSA新论文时做的判断:
预测下,DeepSeek下一波可能会发个Coding模型,两个月内。
推测逻辑:
1、DeepSeek今天新发出的论文主要在谈降低长文本索引的成本的,可以大致判断下个模型可能会去优化上下文的长度,现在DeepSeek R1和V3的128K或64K实在不够看,而目前长上下文最有价值的场景便是Coding;
2、DeepSeek去年发过专门的Coding模型,在这上是有野心和积累的,在发布当时的表现应该仅次于Claude;
3、在发布R1的论文里,DeepSeek特意提到了现在R1在Coding的benchmark上分数很高,很擅长做竞赛题,但在解决现实中的coding问题时表现比较一般,所以这也算个线索;
4、V3对标GPT-4o,R1对标o1,而Claude 3.5 Sonnet至今还是实际编程表现最好的模型,这不合理,该挑战一下了。
所以预计短期内就会有Claude 4和更好的DeepSeek V3 coder出来,AI编程赛道还能出现更有趣的事。
我是花叔,全网20万+粉丝的AI自媒体博主,Appstore付费榜第一的「小猫补光灯」app开发者,企业AI咨询顾问。如果你所在企业有AI编程或AI提效类的需求的话,可以联系我沟通:alchain(注明来意)