200美元的ChatGPT Pro正式上线,聪明N倍的新模型草莓要来了。 * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }

200美元的ChatGPT Pro正式上线,聪明N倍的新模型草莓要来了。

原创 数字生命卡兹克 数字生命卡兹克 2024-09-11 06:58 北京

原文地址: https://mp.weixin.qq.com/s/sc5aMSwU9dKd3X4lzTjkIg

半夜10点,The Information发了个新闻,透露了OpenAI的新模型,草莓,要来了。

两个小时后,我的好朋友@solitude(美东时间),作为一个常年拥有第一手资料和信息的人,跟我说,ChatGPT Pro会员上线了,售价200刀/月,他已经第一时间付完款了。

我看了眼我自己的号,果然啥也没有。

所以,他甚至刚付完款,还没开始用,我就把这个尊贵的Pro号要来了。

现在,ChatGPT的会员,被分成了3档,分别是Plus、Team、Pro。

这个分法,怎么感觉OpenAI学的库克,不会后面还有ChatGPT Pro Max吧。。。

但是目前非常可惜(冤大头)的点是,并没有新的功能,也没有新的模型,唯一有区别的是,GPT4o使用次数基本等于无限,我在短时间内测了几百条,依旧畅通无阻。

而对应的,ChatGPT Plus会员,GPT4o的使用额度是80条/3小时。

一个使用无限制,自然配不上这贵10倍的价格,从20刀/月提升到200刀/月,OpenAI如果真的这么干,那基本等于奥特曼被马斯克给夺舍了。

结合The Information的新闻,基本可以确认的是,这个ChatGPT Pro会员,是过一段时间,为全新的模型,草莓(Strawberry)准备的。

后面想用草莓的,先开个200刀的Pro会员再说。

草莓究竟是啥?目前没有确切的结论,但是从我知道的消息梳理来看的话,这玩意,草莓可能是:

基于新范式Self-play RL所做的,在数学、代码能力上强到爆炸、且具备自主为用户执行浏览器/系统操作级别的新模型。

更智能、更慢、更贵。

我尽量用最简单朴素的语言,让大家都听得懂,解释一下,这个新的草莓,具体是个啥,以及,凭啥卖200刀/月。

首先,得说一下GPT-5出现的一些问题。

GPT-5,就我所知,训练的非常不顺利。

一个可以观察到的点是,以数据规模和模型规模为美的“大力出奇迹”的方式,边际收益开始递减,也不再是百试百灵了。

大语言模型的Scaling Law描述的是模型性能L**、模型参数量大小N****、训练数据大小D以及计算量C之间的关系。**

随着计算量、模型参数和数据集大小的增加,模型的性能通常会显著提高,从而在语言理解和生成等任务上表现更好。

但是现在,计算量、参数大小、数据集大小,都遭遇了瓶颈,特别是闭源模型们,进步速度对比过去,齐刷刷的开始放缓,且开源模型跟闭源模型的能力逐渐开始缩小。

也就是说,再靠大力出奇迹,模型的能力已经快上不去了。

因为本质上,所有的大模型训练,几乎都是人类已有知识的极致利用,我们给出数据、给出人类反馈数据或者标注数据等等,你会发现,大模型不是通过自我探索去“发现”语言的规律,而是直接从我们给出的内容中提取有用的信息。

这就像是一个学生,一开始通过不断地背书确实能提高成绩,但到了一定程度后,已经没啥书可以背了了,而且成绩也到了上限,再怎么死记硬背也很难有大的进步了,这也是如今的困境。

一个是,现有的知识的量级,已经不够了。

另一个点是,所有的知识都是拿现成的直接背出来的,不是自己从0开始探索的,所以大模型在这个过程中,学到的全是相关性,而不是因果性

相关性和因果性这两个词解释起来非常简单。

**相关性:**如果你发现每次你带伞,天都会下雨,这就是相关性。伞和下雨看起来是相关的,但实际上带伞并不会导致下雨。

**因果性:**下雨了你才带伞,这是因果性,因为下雨导致了你带伞。

所以这就是为啥,你让他做个复杂推理,要写明推理过程,中途推理逻辑经常乱七八糟,错的没边,就是这个原因。

它们就像是一个百科全书式的学霸,知道很多事实,但可能并不真正理解这些事实背后的原理以及真正的因果关系。

如果你问一个只会死记硬背的学生:“为什么苹果会落到地上?“他可能会立刻回答:“因为有重力。”

但如果你继续追问:“那重力是什么?为什么会有重力?“他可能就无法给出深入的解释了。

现在的大模型跟这个现象没啥区别。它们可以告诉你地球是圆的,但可能也没办法真正解释为什么地球是圆的,或者地球的形状对我们的生活有什么影响。

它们学到的是”地球”和”圆”这两个词经常一起出现,有强相关性,而不是理解地球为什么会是圆的这种因果关系。

相关性告诉你两件事总是一起发生,因果性则告诉你为什么它们会一起发生。

所以,这也是为什么,我们需要新方法新范式,来破这个局。

而这个解法,是目前我观察下来,OpenAI、Google、Anthropic、Ilya等人的共识:

Self-play RL。

全称是自我对弈强化学习,听起来很复杂,但其实可以用一个简单的比喻来理解:一个孩子学习下围棋。

现在大模型的学习方式是什么样的?看棋谱,记住开局布置,背诵一些固定的战术。它们学习了大量的数据,知道很多可能的解法,但可能并不真正理解为什么要这样下棋。

而Self-play RL,它则是让这个孩子不停地和自己下棋。刚开始可能下得很拉跨,但是通过不断尝试不同的走法,观察每步棋的结果,慢慢地,他会发现哪些策略更有效,哪些走法会输。

这个过程中,孩子不仅仅是在记住棋谱,而是在真正理解棋局的变化,理解每一步棋为什么要这样走。

这就是从相关性学习到因果性学习的飞跃。

有没有感觉,这个描述很熟悉?

这就是2017年名动天下的AlphaGo Zero

当年,AlphaGo在乌镇以3:0击碎柯洁道心,轰动世界。

而AlphaGo Zero,是AlphaGo的进阶版。

官方是这么描述AlphaGo Zero的:

“刚开始时,AlphaGo Zero很菜,还会填真眼自杀。

3小时后,AlphaGo Zero成功入门围棋。

36小时后,AlphaGo Zero就摸索出所有基本而且重要的围棋知识,以100:0的战绩,碾压了当年击败李世乭的AlphaGo v18版本。

21天后,AlphaGo Zero达到了Master的水平,这也就是年初在网上60连胜横扫围棋界的版本,Master后来击败了柯洁。

40天后,AlphaGo Zero对战Master的胜率达到90%,也就是说,AlphaGo Zero成为寂寞无敌的最强围棋AI。”

这就是Self-play RL的恐怖威力。

Self-play RL就是让AI不断地和自己”对弈”,可能是下棋,也可能是解决数学问题,甚至是进行对话。

在这个过程中,AI不仅仅是在重复它看到过的内容,而是在主动探索、尝试和学习。

跟大模型的学习方式,形成了鲜明的对比,大模型是把“死记硬背”发挥到了极致,而Self-play RL则是把“自我成长”发挥到了极致。

数据还是那个数据,只不过一个是人给的,一个是自己造的。

用人给的东西来死记硬背,你永远成为不了超越人的超级AI,但是自己造自己学习的,那是有很大的可能的。

围棋、Dota2,这两个领域,已经证明了这一点。

而大模型+Self-play RL,就是不断的大模型自己跟自己博弈,得到反馈之后,优化模型权重,改一下自己的水平,然后接着战。

且得益于大模型自身的能力,所以在自我博弈过程中,可以不再是只给出最终结果反馈,这种奖励反馈,在提升AI推理能力上其实也有很大的局限。

因为不同于围棋、Dota2这种特定任务,大模型的能力实在是太太太泛化了。我们需要更多的因果关系,而不仅仅只是结果。

对于大模型而言,就可以使用“思维链”,把AI推理过程中每一步的思考过程都记下来。然后对每一步进行评分,让AI知道每个推理步骤的好坏。这种方法让AI不仅仅学习到如何给出正确答案,还能改进整个推理过程,从而知道,真正的因果。

甚至,不仅仅只是打分,得益于大模型的能力,还可以进行文字评价。这就很像你在做作业时,老师不仅给你打分,还会写下评语告诉你哪里做得好,哪里需要改进,你肯定只比知道一个得分结果来的更牛逼对吧。

而且每一次的学习,都是从推理过程中得到宝贵的反馈。

当模型在回答一个复杂问题时,它就会进行一个类似Self-play的过程。模型会生成多个可能的思路,然后评估这些思路的质量,选择最佳的一个。

在海外独角兽的文章中,曾经做过一个计算,一个百亿参数的大模型,如果用Self-play的方式去生产思路,如果每次生产32个思路,每个思路里都有5个步骤,一次推理回答,总任务消耗是100K token,将近6美元。

又贵、又慢,但是真的智能。

最好的数据会被保存下来,以固定周期对模型进行迭代,以持续进化。

这也是为啥,在草莓的曝光中,说:

“Strawberry 与其他模型的最大区别在于它能够在响应之前「思考」,⽽不是立即回答查询,这个思考阶段通常持续 10 到 20 秒。”

且,我们在文章的一开始,看到ChatGPT Pro会员,是200美元一个月了吧。

推理成本,太特么高了。

这就是典型的,在大力出奇迹的方式边际效应递减的情况下,用推理成本,换训练成本,继续给模型做迭代。

这也是为什么,OpenAI一直说,草莓,是给下一代大模型,合成数据用的,因为,它就是Self-play RL的载体

所以回头看,草莓,可能是什么。

是基于新范式Self-play RL所做的,在数学、代码能力上强到爆炸、且具备自主为用户执行浏览器/系统操作级别的新模型。

更智能、更慢、更贵。

还有最后一个问题是,为啥草莓在数学能力和代码能力上会强到爆炸?

这个答案就非常简单了。

因为…数学和代码,是非常好验证的,在Self-play里,可以给出明确的结果的,数学就不说了,代码,你能不能跑起来不就能验证了,对吧。

所以,这两玩意,一定是最先一飞冲天的。

Claude3.5的代码能力为啥这么牛逼,就是用Self-play RL做的。

想起前几天,去跟一个做AI应用非常专业且牛逼的朋友聊,他前段时间刚回来,见了一些科研的人。

有些内部的研究员,是这么形容Self-play RL的:

“通往AGI的路上,已经没有任何阻碍。”

在沉寂了近一年之后,我们,可能要迎来一个全新的大模型技术爆发周期了。

真的。

我,拭目以待。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克

参考资料

[1] RL 是 LLM 的新范式 @海外独角兽

[2] LLM的范式转移:RL带来新的 Scaling Law @海外独角兽

[3] Scaling能通往AGI吗? @海外独角兽

[4] New Details on OpenAI’s Strawberry @The Information

[5] Scaling Laws for Neural Language Models @OpenAI

[6] Let’s Verify Step by Step @OpenAI

数字生命卡兹克

![](data:image/svg+xml,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E%3C!— Icon from Lucide by Lucide Contributors - https://github.com/lucide-icons/lucide/blob/main/LICENSE —%3E%3Cg fill=‘none’ stroke=‘%23888888’ stroke-linecap=‘round’ stroke-linejoin=‘round’ stroke-width=‘2’%3E%3Cpath d=‘M2.062 12.348a1 1 0 0 1 0-.696a10.75 10.75 0 0 1 19.876 0a1 1 0 0 1 0 .696a10.75 10.75 0 0 1-19.876 0’/%3E%3Ccircle cx=‘12’ cy=‘12’ r=‘3’/%3E%3C/g%3E%3C/svg%3E) 阅读![](data:image/svg+xml,%3Csvg width=‘25’ height=‘24’ viewBox=‘0 0 25 24’ fill=‘none’ xmlns=‘http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=‘evenodd’ clip-rule=‘evenodd’ d=‘M16.154 6.797l-.177 2.758h4.009c1.346 0 2.359 1.385 2.155 2.763l-.026.148-1.429 6.743c-.212.993-1.02 1.713-1.977 1.783l-.152.006-13.707-.006c-.553 0-1-.448-1-1v-8.58a1 1 0 0 1 1-1h2.44l1.263-.03.417-.018.168-.015.028-.005c1.355-.315 2.39-2.406 2.58-4.276l.01-.16.022-.572.022-.276c.074-.707.3-1.54 1.08-1.883 2.054-.9 3.387 1.835 3.274 3.62zm-2.791-2.52c-.16.07-.282.294-.345.713l-.022.167-.019.224-.023.604-.014.204c-.253 2.486-1.615 4.885-3.502 5.324l-.097.018-.204.023-.181.012-.256.01v8.218l9.813.004.11-.003c.381-.028.72-.304.855-.709l.034-.125 1.422-6.708.02-.11c.099-.668-.354-1.308-.87-1.381l-.098-.007h-5.289l.26-4.033c.09-1.449-.864-2.766-1.594-2.446zM7.5 11.606l-.21.005-2.241-.001v8.181l2.45.001v-8.186z’ fill=‘%23000’/%3E%3C/svg%3E) 赞 ![](data:image/svg+xml;charset=utf8,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E %3Cg fill=‘none’ fill-rule=‘evenodd’%3E %3Cpath d=‘M0 0h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M13.707 3.288l7.171 7.103a1 1 0 0 1 .09 1.32l-.09.1-7.17 7.104a1 1 0 0 1-1.705-.71v-3.283c-2.338.188-5.752 1.57-7.527 5.9-.295.72-1.02.713-1.177-.22-1.246-7.38 2.952-12.387 8.704-13.294v-3.31a1 1 0 0 1 1.704-.71zm-.504 5.046l-1.013.16c-4.825.76-7.976 4.52-7.907 9.759l.007.287c1.594-2.613 4.268-4.45 7.332-4.787l1.581-.132v4.103l6.688-6.623-6.688-6.623v3.856z’/%3E %3C/g%3E%3C/svg%3E) 分享 ![](data:image/svg+xml;charset=utf8,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E %3Cdefs%3E %3Cpath id=‘a62bde5b-af55-42c8-87f2-e10e8a48baa0-a’ d=‘M0 0h24v24H0z’/%3E %3C/defs%3E %3Cg fill=‘none’ fill-rule=‘evenodd’%3E %3Cmask id=‘a62bde5b-af55-42c8-87f2-e10e8a48baa0-b’ fill=‘%23fff’%3E %3Cuse xlink:href=‘%23a62bde5b-af55-42c8-87f2-e10e8a48baa0-a’/%3E %3C/mask%3E %3Cg mask=‘url(%23a62bde5b-af55-42c8-87f2-e10e8a48baa0-b)‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ![](data:image/svg+xml,%3Csvg width=‘25’ height=‘24’ viewBox=‘0 0 25 24’ fill=‘none’ xmlns=‘http://www.w3.org/2000/svg’%3E%3Cpath d=‘M22.242 7a2.5 2.5 0 0 0-2.5-2.5h-14a2.5 2.5 0 0 0-2.5 2.5v8.5a2.5 2.5 0 0 0 2.5 2.5h2.5v1.59a1 1 0 0 0 1.707.7l1-1a.569.569 0 0 0 .034-.03l1.273-1.273a.6.6 0 0 0-.8-.892v-.006L9.441 19.1l.001-2.3h-3.7l-.133-.007A1.3 1.3 0 0 1 4.442 15.5V7l.007-.133A1.3 1.3 0 0 1 5.742 5.7h14l.133.007A1.3 1.3 0 0 1 21.042 7v4.887a.6.6 0 1 0 1.2 0V7z’ fill=‘%23000’ fill-opacity=’.9’/%3E%3Crect x=‘14.625’ y=‘16.686’ width=‘7’ height=‘1.2’ rx=’.6’ fill=‘%23000’ fill-opacity=’.9’/%3E%3Crect x=‘18.725’ y=‘13.786’ width=‘7’ height=‘1.2’ rx=’.6’ transform=‘rotate(90 18.725 13.786)’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言