GPT-4o发布,OpenAI春季发布会2分钟解读

原创 AI进化论-花生 花叔 2024-05-14 04:55

原文地址: https://mp.weixin.qq.com/s/VMmYNz0KTOBYWXREvloebQ

互动数据

  • 阅读:323
  • 点赞:2
  • 转发:19
  • 喜欢:1
  • 留言:未知

ChatGPT又进化了,在今天凌晨结束的发布会里,虽然万众期待的GPT-5和AI搜索引擎SearchGPT都没出现,但OpenAI还是做了几项相当重大的更新。

这些更新是OpenAI最近一年打磨工程能力的胜利,使得很多你意想不到的AI使用场景都成为了可能,一大堆大模型应用公司又倒在沙滩上。

我现在就来快速帮大家过一下最重要的几项更新内容:

首先,第一个,OpenAI新发布了GPT-4o,这是一个把视觉、语音、文本能力整合得更好的GPT-4模型;你可以看出从评分上来说,这个模型会超过GPT-4和Claude3、Gemini等,继续成为世界上最好的模型;

其次,最最重要的是,这个模型在能力提升,速度变快的情况下,OpenAI还把他向所有免费用户开放了,并且除了基础模型之外,免费用户也能开始使用GPT Store中用户定制的上百万个GPTs,能使用browsing网页浏览的能力,数据分析的能力,长期的记忆能力等等;一堆套壳公司、卖号平台,以及Plus付费用户哭晕在厕所。不过呢,付费用户好歹还有个优势是使用量限制会是免费用户的5倍。

第三,OpenAI还对ChatGPT的语音能力进行了升级,在此之前,你和ChatGPT对话一般要等2-5秒钟,这用起来和人对话实在是差太多了,但是这次GPT-4o里,OpenAI让模型的响应市场降低到了0.2-0.3秒,几乎是和人说话一样了,而且实时性超强,可以随时打断,而且不是简单的语音转文字的处理模式,能理解语气、语调,充当有情感的对话助手,以及作为实时的同声传译都毫无问题。我估计你们也都想到了《Her》这部电影。

第四,ChatGPT还发布了Mac版的客户端,在这个客户端里,你也能用语音对话,并且也非常快捷地通过复制、分享电脑屏幕等方式让ChatGPT进入到你正在处理的任务语境中去,可以认为ChatGPT成为了一个你工作全局的copilot,辅助excel、ppt、写代码等都不再话下。四舍五入等于是替老罗圆梦了,老罗这要是遇见Sam Altman,估计得大喊一声,兄弟,还是你懂我啊。

第五,现在的GPT-4o模型,可在使用语音对话的同时,开启摄像头,让ChatGPT实时看到你所在的环境以及你看到的信息,这种可用性的提升能增加大量的使用场景,比如提供教学、博物馆导览、辅助视障人士等等。不过从测试细节看,这也并不是一个有视频理解能力的多模态模型,而是通过每隔几秒钟自动截图让ChatGPT理解的方式实现的。

最后,最重要的一点,除了语音功能因为太强了,OpenAI还需要测试一段时间之外,其他能力预期都会在最近几天内就上线。