ChatGPT本来要5天后关掉

原创 花叔 花叔 2026-01-20 11:22

原文地址: https://mp.weixin.qq.com/s/ay0HfvEQEn3_2wusQUhe9Q

互动数据

  • 阅读:27691
  • 点赞:313
  • 转发:650
  • 喜欢:91
  • 留言:13

“发ChatGPT只是为了看看能不能收集一些真实的用户数据。我们预期可能一开始有1万2万用户,然后慢慢跌回去,5天之后没人了就关掉。”

这是翁家翌在一期播客里说的。截屏2026-01-20 11.20.45他是谁?从GPT-3.5、GPT-4、GPT-4o到GPT-5,每一个OpenAI大模型发布,贡献者名单里都有他的名字。他在OpenAI内部搭建了整个后训练阶段的强化学习基础设施——简单说,就是让GPT从”会说话”变成”聪明好用”的那套系统。

2022年11月30日,ChatGPT上线。

结果不是慢慢跌回去,是指数增长,服务器被打爆好几次。

“我当时在欧洲开会,发现周围所有人都在讨论ChatGPT。”

但他自己一开始并不觉得这东西有多厉害。

“我第一次用可能会觉得,哦,这是个会说话的模型,也就这样吧。用了几次发现能帮我解决一点代码问题,但也不能帮我解决那么多。”

因为他提前接触了,有个循序渐进的过程,所以不觉得它多突然。但对外面的人来说,这是一个巨大的冲击。

“这是我没想到的。”

现在回头看,ChatGPT的成功有很大的偶然性。如果当时真的没人用,可能就关掉了。


这期播客两个多小时,我从头看到尾。翁家翌讲了很多OpenAI内部的事情,有些挺颠覆认知的。

GPT-4的强化学习是比GPT-3.5先调通的。

“3.5当时用的是旧的基础设施,新的是2022年8月刚好。我先在新的上面调通了第一版PPO,用的是GPT-4。”

所以技术时间线和产品发布时间线是两回事。外面的人以为3.5先做出来,4是升级版。实际上后训练这块,4先跑通的。

OpenAI的模型为什么比别人强?有什么黑魔法吗?

“没有黑魔法。每家的基础设施都有不同程度的bug,谁修bug越多,谁的模型训得就越好。”

他甚至说:“算法连改都不用改,把bug全修了就很好。”

这话听起来有点反直觉。大家总觉得OpenAI一定有什么秘密武器,什么独家算法。结果核心竞争力是”修bug修得多”。

怎么知道训出来的模型是好的?有什么客观指标吗?

“没有。最后就是你真的拉下来看一看,跟它交互几次,多找几个人来投票。”

就这么朴素。


2024年,DeepSeek崛起,OpenAI内部紧张了一波。

但紧张的原因不是很多人以为的”榜单被超了”。

“我们很长时间以来都没有为了刷榜做什么事情。我们真正在意的是迭代速度。DeepSeek声称他们的迭代速度非常快,这个引起了很多人的警觉。”

在这个行业,迭代速度就是生死线。单位时间内能跑多少次实验、能验证多少个idea,决定了你能走多远。

“内部的迭代速度其实相比于一些小团队是有点慢的。组织大了就是这样。”

OpenAI从翁家翌入职时的280人,涨到了现在的3000多人。组织大了,context sharing就难了,代码库开始臃肿,迭代速度自然会掉下来。

他还提到一个细节:DeepSeek出来之后,John Schulman(OpenAI联合创始人,PPO算法发明者)问过他,要不要把强化学习的基础设施开源。

“我当时觉得不太好吧,为了公司的考量。但他确实问了我这个事。”


那这个人是怎么进OpenAI的?

说出来可能会让一些人感到安慰:他不是传统意义上的天才。

NOI(全国信息学奥林匹克竞赛)拿的是铜牌,福建省队倒数第一,其他人全是银牌以上。高考面临两个选择:签上海交大本一线录取,稳了;或者签清华降60分,但万一发挥失常呢?

他选了清华。

“当时对这种不确定性非常害怕,但想了想,我应该也没那么差吧。”

后来申请美国读博,图灵奖得主Yoshua Bengio的推荐信,结果PhD全拒,只拿到CMU的硕士。

“当时还是有点失望的。整个清华内部的氛围就是PhD比master好,这个鄙视链你身在其中很难摆脱。”

但他很快想通了。

“如果你想进工业界,那读PhD就是浪费生命。”


他有一套自己的评价体系。

导师跟他说过:计算机系的评价标准有三个——论文、比赛、GitHub star三位数以上。

“这给了我一个完全不一样的想法。我可以在开源社区搞一些事情,让自己跟别人不一样。而不是花很多时间去刷GPA。”

GPA他怎么处理的?

“最低限度投入。算一下期末考之前已经多少分了,够用就行,多一分都不想花时间。”

他在清华干了一件让学长学姐不太高兴的事:把自己收集到的所有作业、资料、上古材料,全部在GitHub上开源了。

“你现在随便抓个计算机系的学弟问,认不认识翁家翌,应该认识。因为大家都看我的作业活的。”

为什么要这么做?

“我觉得应该打破信息差。信息差在清华是个很有用的东西,但我觉得每个人都应该平等地拥有这个信息。”


大二他进了朱军老师的实验室做强化学习。第一个项目是用神经网络通关一个90年代的射击游戏Doom,拿了比赛冠军。

但他不享受做研究的过程。

“环境太单一了,你要疯狂overfit。用各种技巧防止训练崩了,即使没崩你也不知道怎么调参才能调对。这个比CV难十倍一百倍,全是玄学。”

他发现自己对调参这件事有生理上的排斥。但他擅长另一件事:写代码、重构代码、让代码更好用。

“我就想,与其自己去卷这些调参的事,不如造一套工具,让想卷的人更方便地卷。”

2020年疫情期间,他在家花两周时间写了一个开源的强化学习框架叫天授(Tianshou)。

为什么只要两周?

“如果你把抽象搞对的话,一个算法可能就20行代码不到。”

他看过当时最流行的RLlib,几十万行代码,太复杂了。所以他推倒重来,自己从头写。

“代码最重要的是一致性。如果从头到尾都是一个人写的,那肯定是一致的。”

同期他还做了一个签证查询网站叫退学online。疫情期间美国领事馆开开关关,留学生需要实时知道哪里能约到签证。他自己有这个需求,就顺手写了个爬虫开源出去。后来点击量超过1000万。

这两个项目都不是为了发论文、不是为了申请。

“我想做一些能够产生影响力的事情,哪怕亏钱也行。”


2022年找工作的时候,他手上有几个offer:幻方(后来的DeepSeek)、OpenAI、英伟达。

他选了OpenAI。当时ChatGPT还没发布,OpenAI在很多人眼里只是一个做强化学习研究的实验室。

面试他的是John Schulman。

“他说我的GitHub非常漂亮。”

最后一轮面试,Schulman出了一道很开放的题,给三个小时。翁家翌两个小时就做完了。

“这道题他只给两个人测过,一个是我,另一个是后来做Codex的那个人。我们都通过了。”

他后来总结了一句话:

“教一个researcher如何做好engineering,要远比教一个engineer如何做好research来的难。”

现在的AI行业,idea不值钱。值钱的是单位时间内你能验证多少个idea、能正确地迭代多少次。这取决于工程能力。

“你找个有研究直觉的人讨论一下,idea就出来了。但你能不能把基础设施搭对、能不能快速迭代,这个是稀缺的。”


播客里还聊到一个问题:OpenAI做的东西,外面的人能复刻吗?

“你可以这么认为。其实就是把最简单的东西做好就好了,没有什么黑魔法。”

他甚至说:OpenAI现在没有谁是不可替代的。

“一个健康的组织是所有人都可以替代的。你只要能够持续培养新人,有造血能力,让组织正常运转就可以了。”

走了很多人?没关系,可以再培养。

“哪怕虽然走了很多人,但是还是可以花一些时间精力,然后再培养一波新人,持续的造血,相当于干细胞一样。”


访谈最后,主持人问他怎么定义AGI。

“OpenAI内部有个笑话,你抓15个人,可能有20种定义AGI的方法。”

他自己的定义是:如果能完成80-90%他认为有意义的任务,那就是AGI了。

“目前还没有。我还是不放心让它直接改我的代码。”

但他很确定AGI会来。

“AGI是板上钉钉的事了。”

他还讲了一个内部故事:o1模型刚出来的时候,内部很多人都觉得”我的工作要被取代了”。

“我们甚至想说,那就写一堆屎山吧,反正以后AI会帮我们清理。”

结果呢?

“一两年过去了,屎山还在。每个人都会过度反应,觉得技术来了我们要怎么怎么样,但实际上它是一个很慢很慢的循序渐进的过程。”


主持人最后让他留一段话。

他说:

“我曾经想通了我想要什么,但现在又想不通了。这个问题值得一生去思考。”

一个95后,站在AI风暴的中心,相信AGI即将到来,但说自己”又想不通了”。

这可能是最真实的状态。


视频来源:WhynotTV Podcast #4

B站:https://www.bilibili.com/video/BV1darmBcE4A/

YouTube:https://www.youtube.com/watch?v=I0DrcsDf3Os