ChatGPT本来要5天后关掉

原创花叔花叔 2026-01-20 11:22

原文地址: https://mp.weixin.qq.com/s/ay0HfvEQEn3_2wusQUhe9Q

互动数据

阅读：27691
点赞：313
转发：650
喜欢：91
留言：13

“发ChatGPT只是为了看看能不能收集一些真实的用户数据。我们预期可能一开始有1万2万用户，然后慢慢跌回去，5天之后没人了就关掉。”

这是翁家翌在一期播客里说的。截屏2026-01-20 11.20.45 他是谁？从GPT-3.5、GPT-4、GPT-4o到GPT-5，每一个OpenAI大模型发布，贡献者名单里都有他的名字。他在OpenAI内部搭建了整个后训练阶段的强化学习基础设施——简单说，就是让GPT从”会说话”变成”聪明好用”的那套系统。

2022年11月30日，ChatGPT上线。

结果不是慢慢跌回去，是指数增长，服务器被打爆好几次。

“我当时在欧洲开会，发现周围所有人都在讨论ChatGPT。”

但他自己一开始并不觉得这东西有多厉害。

“我第一次用可能会觉得，哦，这是个会说话的模型，也就这样吧。用了几次发现能帮我解决一点代码问题，但也不能帮我解决那么多。”

因为他提前接触了，有个循序渐进的过程，所以不觉得它多突然。但对外面的人来说，这是一个巨大的冲击。

“这是我没想到的。”

现在回头看，ChatGPT的成功有很大的偶然性。如果当时真的没人用，可能就关掉了。

这期播客两个多小时，我从头看到尾。翁家翌讲了很多OpenAI内部的事情，有些挺颠覆认知的。

GPT-4的强化学习是比GPT-3.5先调通的。

“3.5当时用的是旧的基础设施，新的是2022年8月刚好。我先在新的上面调通了第一版PPO，用的是GPT-4。”

所以技术时间线和产品发布时间线是两回事。外面的人以为3.5先做出来，4是升级版。实际上后训练这块，4先跑通的。

OpenAI的模型为什么比别人强？有什么黑魔法吗？

“没有黑魔法。每家的基础设施都有不同程度的bug，谁修bug越多，谁的模型训得就越好。”

他甚至说：“算法连改都不用改，把bug全修了就很好。”

这话听起来有点反直觉。大家总觉得OpenAI一定有什么秘密武器，什么独家算法。结果核心竞争力是”修bug修得多”。

怎么知道训出来的模型是好的？有什么客观指标吗？

“没有。最后就是你真的拉下来看一看，跟它交互几次，多找几个人来投票。”

就这么朴素。

2024年，DeepSeek崛起，OpenAI内部紧张了一波。

但紧张的原因不是很多人以为的”榜单被超了”。

“我们很长时间以来都没有为了刷榜做什么事情。我们真正在意的是迭代速度。DeepSeek声称他们的迭代速度非常快，这个引起了很多人的警觉。”

在这个行业，迭代速度就是生死线。单位时间内能跑多少次实验、能验证多少个idea，决定了你能走多远。

“内部的迭代速度其实相比于一些小团队是有点慢的。组织大了就是这样。”

OpenAI从翁家翌入职时的280人，涨到了现在的3000多人。组织大了，context sharing就难了，代码库开始臃肿，迭代速度自然会掉下来。

他还提到一个细节：DeepSeek出来之后，John Schulman（OpenAI联合创始人，PPO算法发明者）问过他，要不要把强化学习的基础设施开源。

“我当时觉得不太好吧，为了公司的考量。但他确实问了我这个事。”

那这个人是怎么进OpenAI的？

说出来可能会让一些人感到安慰：他不是传统意义上的天才。

NOI（全国信息学奥林匹克竞赛）拿的是铜牌，福建省队倒数第一，其他人全是银牌以上。高考面临两个选择：签上海交大本一线录取，稳了；或者签清华降60分，但万一发挥失常呢？

他选了清华。

“当时对这种不确定性非常害怕，但想了想，我应该也没那么差吧。”

后来申请美国读博，图灵奖得主Yoshua Bengio的推荐信，结果PhD全拒，只拿到CMU的硕士。

“当时还是有点失望的。整个清华内部的氛围就是PhD比master好，这个鄙视链你身在其中很难摆脱。”

但他很快想通了。

“如果你想进工业界，那读PhD就是浪费生命。”

他有一套自己的评价体系。

导师跟他说过：计算机系的评价标准有三个——论文、比赛、GitHub star三位数以上。

“这给了我一个完全不一样的想法。我可以在开源社区搞一些事情，让自己跟别人不一样。而不是花很多时间去刷GPA。”

GPA他怎么处理的？

“最低限度投入。算一下期末考之前已经多少分了，够用就行，多一分都不想花时间。”

他在清华干了一件让学长学姐不太高兴的事：把自己收集到的所有作业、资料、上古材料，全部在GitHub上开源了。

“你现在随便抓个计算机系的学弟问，认不认识翁家翌，应该认识。因为大家都看我的作业活的。”

为什么要这么做？

“我觉得应该打破信息差。信息差在清华是个很有用的东西，但我觉得每个人都应该平等地拥有这个信息。”

大二他进了朱军老师的实验室做强化学习。第一个项目是用神经网络通关一个90年代的射击游戏Doom，拿了比赛冠军。

但他不享受做研究的过程。

“环境太单一了，你要疯狂overfit。用各种技巧防止训练崩了，即使没崩你也不知道怎么调参才能调对。这个比CV难十倍一百倍，全是玄学。”

他发现自己对调参这件事有生理上的排斥。但他擅长另一件事：写代码、重构代码、让代码更好用。

“我就想，与其自己去卷这些调参的事，不如造一套工具，让想卷的人更方便地卷。”

2020年疫情期间，他在家花两周时间写了一个开源的强化学习框架叫天授（Tianshou）。

为什么只要两周？

“如果你把抽象搞对的话，一个算法可能就20行代码不到。”

他看过当时最流行的RLlib，几十万行代码，太复杂了。所以他推倒重来，自己从头写。

“代码最重要的是一致性。如果从头到尾都是一个人写的，那肯定是一致的。”

同期他还做了一个签证查询网站叫退学online。疫情期间美国领事馆开开关关，留学生需要实时知道哪里能约到签证。他自己有这个需求，就顺手写了个爬虫开源出去。后来点击量超过1000万。

这两个项目都不是为了发论文、不是为了申请。

“我想做一些能够产生影响力的事情，哪怕亏钱也行。”

2022年找工作的时候，他手上有几个offer：幻方（后来的DeepSeek）、OpenAI、英伟达。

他选了OpenAI。当时ChatGPT还没发布，OpenAI在很多人眼里只是一个做强化学习研究的实验室。

面试他的是John Schulman。

“他说我的GitHub非常漂亮。”

最后一轮面试，Schulman出了一道很开放的题，给三个小时。翁家翌两个小时就做完了。

“这道题他只给两个人测过，一个是我，另一个是后来做Codex的那个人。我们都通过了。”

他后来总结了一句话：

“教一个researcher如何做好engineering，要远比教一个engineer如何做好research来的难。”

现在的AI行业，idea不值钱。值钱的是单位时间内你能验证多少个idea、能正确地迭代多少次。这取决于工程能力。

“你找个有研究直觉的人讨论一下，idea就出来了。但你能不能把基础设施搭对、能不能快速迭代，这个是稀缺的。”

播客里还聊到一个问题：OpenAI做的东西，外面的人能复刻吗？

“你可以这么认为。其实就是把最简单的东西做好就好了，没有什么黑魔法。”

他甚至说：OpenAI现在没有谁是不可替代的。

“一个健康的组织是所有人都可以替代的。你只要能够持续培养新人，有造血能力，让组织正常运转就可以了。”

走了很多人？没关系，可以再培养。

“哪怕虽然走了很多人，但是还是可以花一些时间精力，然后再培养一波新人，持续的造血，相当于干细胞一样。”

访谈最后，主持人问他怎么定义AGI。

“OpenAI内部有个笑话，你抓15个人，可能有20种定义AGI的方法。”

他自己的定义是：如果能完成80-90%他认为有意义的任务，那就是AGI了。

“目前还没有。我还是不放心让它直接改我的代码。”

但他很确定AGI会来。

“AGI是板上钉钉的事了。”

他还讲了一个内部故事：o1模型刚出来的时候，内部很多人都觉得”我的工作要被取代了”。

“我们甚至想说，那就写一堆屎山吧，反正以后AI会帮我们清理。”

结果呢？

“一两年过去了，屎山还在。每个人都会过度反应，觉得技术来了我们要怎么怎么样，但实际上它是一个很慢很慢的循序渐进的过程。”

主持人最后让他留一段话。

他说：

“我曾经想通了我想要什么，但现在又想不通了。这个问题值得一生去思考。”

一个95后，站在AI风暴的中心，相信AGI即将到来，但说自己”又想不通了”。

这可能是最真实的状态。

视频来源：WhynotTV Podcast #4

B站：https://www.bilibili.com/video/BV1darmBcE4A/

YouTube：https://www.youtube.com/watch?v=I0DrcsDf3Os

逸尘的AI知识库

探索

ChatGPT本来要5天后关掉

ChatGPT本来要5天后关掉

互动数据

关系图谱

目录