GPT-4o发布，OpenAI春季发布会2分钟解读

原创 AI进化论-花生花叔 2024-05-14 04:55

原文地址: https://mp.weixin.qq.com/s/VMmYNz0KTOBYWXREvloebQ

互动数据

阅读：323
点赞：2
转发：19
喜欢：1
留言：未知

ChatGPT又进化了，在今天凌晨结束的发布会里，虽然万众期待的GPT-5和AI搜索引擎SearchGPT都没出现，但OpenAI还是做了几项相当重大的更新。

这些更新是OpenAI最近一年打磨工程能力的胜利，使得很多你意想不到的AI使用场景都成为了可能，一大堆大模型应用公司又倒在沙滩上。

我现在就来快速帮大家过一下最重要的几项更新内容：

首先，第一个，OpenAI新发布了GPT-4o，这是一个把视觉、语音、文本能力整合得更好的GPT-4模型；你可以看出从评分上来说，这个模型会超过GPT-4和Claude3、Gemini等，继续成为世界上最好的模型；

其次，最最重要的是，这个模型在能力提升，速度变快的情况下，OpenAI还把他向所有免费用户开放了，并且除了基础模型之外，免费用户也能开始使用GPT Store中用户定制的上百万个GPTs，能使用browsing网页浏览的能力，数据分析的能力，长期的记忆能力等等；一堆套壳公司、卖号平台，以及Plus付费用户哭晕在厕所。不过呢，付费用户好歹还有个优势是使用量限制会是免费用户的5倍。

第三，OpenAI还对ChatGPT的语音能力进行了升级，在此之前，你和ChatGPT对话一般要等2-5秒钟，这用起来和人对话实在是差太多了，但是这次GPT-4o里，OpenAI让模型的响应市场降低到了0.2-0.3秒，几乎是和人说话一样了，而且实时性超强，可以随时打断，而且不是简单的语音转文字的处理模式，能理解语气、语调，充当有情感的对话助手，以及作为实时的同声传译都毫无问题。我估计你们也都想到了《Her》这部电影。

第四，ChatGPT还发布了Mac版的客户端，在这个客户端里，你也能用语音对话，并且也非常快捷地通过复制、分享电脑屏幕等方式让ChatGPT进入到你正在处理的任务语境中去，可以认为ChatGPT成为了一个你工作全局的copilot，辅助excel、ppt、写代码等都不再话下。四舍五入等于是替老罗圆梦了，老罗这要是遇见Sam Altman，估计得大喊一声，兄弟，还是你懂我啊。

第五，现在的GPT-4o模型，可在使用语音对话的同时，开启摄像头，让ChatGPT实时看到你所在的环境以及你看到的信息，这种可用性的提升能增加大量的使用场景，比如提供教学、博物馆导览、辅助视障人士等等。不过从测试细节看，这也并不是一个有视频理解能力的多模态模型，而是通过每隔几秒钟自动截图让ChatGPT理解的方式实现的。

最后，最重要的一点，除了语音功能因为太强了，OpenAI还需要测试一段时间之外，其他能力预期都会在最近几天内就上线。

逸尘的AI知识库

探索

GPT_4o发布_OpenAI春季发布会2分钟解读

GPT-4o发布，OpenAI春季发布会2分钟解读

互动数据

关系图谱

目录