Sora能力与原理详解，OpenAI暴力美学的又一次胜利

原创 AI进化论-花生花叔 2024-02-23 23:04 海南

原文地址: https://mp.weixin.qq.com/s/VVI0SjoSmK2O8cNGoZ6vrQ

互动数据

阅读：143
点赞：4
转发：10
喜欢：2
留言：未知

2月16日凌晨OpenAI发布了Sora，这是继去年3月GPT4的发布会AI界最重大的消息了，他让几个小时前发布100万上下文长度的Gemini PRO 1.5版本的谷歌成了AI界的汪峰，也让拥有PS等图像编辑软件的adobe不到一周就跌去了200亿美金的市值。从这几个侧面，你就可以看出Sora的问世有多么让人震惊，它的出现有多大的革命性。

现在Sora还处于内部测试状态，世界上没几个人能用到这个模型，所以这篇文章不是使用技巧和经验之谈，而是尝试给你讲清楚三个方面的事情：

Sora到底具备了哪些能力让它如此鹤立鸡群；
Sora所谓的世界模型是什么，是怎么实现的，为什么比现在的AI视频模型强这么多？
七个关于视频生成模型未来发展以及它能带来影响的预测。

最后我也会给你介绍下现在申请Sora内测的方式以及一些注意事项。但需要指出的是因为公众号不方便展现视频，所以以下解读缺少视频的辅助可能会影响你的理解，我非常建议你可以直接去读Sora的技术报告：https://openai.com/research/video-generation-models-as-world-simulators，或者我今天在B站和YouTube新上线的解读Sora原理的视频：https://www.bilibili.com/video/BV1FH4y177ES/

一、Sora的能力

1.1 Sora是什么

Sora是OpenAI2月16日发布的视频生成模型，有些人会误解这是不是GPT-5，但其实它跟ChatGPT暂时还没什么关系，而是一个纯粹新的模型。

Sora的横空出世为什么会让人感到那么的震惊呢？它并不是第一个大众看到能生成视频的模型。其实在2023年的时候我们至少还经历过两个所谓的视频生成模型的GPT-4时刻，那就是Runway的Gen2和Pika的发布，但等大家能实际上手使用后，发现完全不是那么回事。

首先他们基本只能生成不到10秒的视频，分辨率很差，视频中物体的运动也非常有限，与其说是视频，不如称它为gif动图更为准确。但是就是这么个东西，已经让产业界和资本市场兴奋不宜，Pika创始人是一个华人女生，当时新闻爆出后甚至让她父亲与AI完全无关的公司迎来了n个涨停板。

而等到现在Sora出现，人们才真的发现原来视频生成模型是有可能做到以假乱真的地步的，也让人看到了视频生成模型scaling low的存在，像2022年11月时发布的ChatGPT那样，让人看到了一种新的可能性。

1.2 Sora能做什么？

所以，Sora到底能做哪些事，能如何生成视频？

能力1:文字生成视频

你可以理解为就是通过Prompt生成视频，比如现在Sora流传出的以下最著名的59秒视频就是通过以下prompt生成的：

一位时尚的女士在充满温暖霓虹灯和动态城市标志的东京街头漫步。她穿着黑色皮夹克，一条长红裙和黑色靴子，并携带着一个黑色手提包。她戴着太阳镜和红色口红。她走路既自信又随意。街道湿润且具有反射效果，创造出色彩灯光的镜面效果。许多行人来来往往。

当然，因为GPT的能力，在实际使用上你也可以用更简单的一些描述，由GPT对prompt进行补充，比如更简单的说：

参观一个艺术画廊，里面有许多不同风格的美丽艺术作品。

能力2:图片生成视频

当你已经有一张照片，或者用AI生成的图片时，你也完全可以像这样让图片动起来。

能力3:用视频扩展视频

与图片生成视频类似，可以通过输入一段视频材料，让Sora向前或者向后延展视频。

能力4:视频编辑/风格转化

现在你可以看到一系列汽车行驶的画面，上面的是输入给Sora的视频，中间是文字Prompt，底下是给Sora提出不同要求后获得的输出视频，你会发现除了车辆行驶路线和画面结构维持了惊人的一致，变化的只有汽车的样式和背后的场景，你动动嘴就能实现视频的PS了。

能力5:视频间丝滑的专场衔接

在Sora提供的演示中，有两个视频，分别是村庄的画面，和城市中飘着鱼的视频，这两个视频可以说毫无关系，但是，通过Sora，你可以让他们像这样丝滑地衔接起来。

能力6:文字生成图片（与DALLE3对比）

这点很容易理解，毕竟图片可以理解为只有一帧的视频，对Sora来说是很简单的事。

你现在看到的这张图片的prompt分别是：

特写镜头：秋天里，一位女士的近距离肖像，极致细节，浅景深。

我用同样的Prompt尝试让DALLE3生成对应画面，通过对比你可以发现Sora效果好多了，OpenAI就这么顺手秒杀了自己的产品。

二、Sora的原理

2.1 世界模拟器与世界模型之争

OpenAI在Sora的技术报告里提到Sora涌现出了对现实世界物理规律的理解能力。当然，有很多大佬并不统一，比如图灵奖得主、Meta的首席AI科学家Yann Lecun就认为生成式的模型，没有从底层规则出发，和真正理解世界的运行规律并没有什么关系。

但是我自己很不认可真的观点，因为在牛顿力学出现前，人类也知道苹果成熟后会掉落。人类通过对世界的观察就能知道把物体丢出去会掉落，人走进房子后即使看不到也不会消失，AI通过观察人类的视频当然也是有机会「理解」这些规则的。

我们可以具体看看OpenAI是怎么描述这个世界模拟器的。

Sora现在能生成带有动态摄像机运动的3D场景的画面，并且在这个过程中维持了世界的稳定性。
Sora知道人走过狗时，即使把狗挡住了，狗还是存在的，并且维持了相当的稳定性。
Sora知道画笔在画板上绘制后应该留下什么画面，人咬了汉堡后汉堡会缺一块并留下齿痕。

你很难说Sora它到底理解这背后的逻辑吗？但是只有它能表现得如此有逻辑，我们完全可以认为它存在类似人类的对世界的理解。这是大量数据和算力带来的「智能涌现」，有没有觉得和ChatGPT很像

2.2 Sora的实现原理

所以，OpenAI到底是怎么把这个东西做出来的。

首先，是模型算法的差异

多数图片和视频生成模型采用的是diffusion架构，最典型的当然就是stable diffusion，这种扩散模型是把将一些列初始的噪点按找算法生成清晰画面的过程。

而现在像GPT、Gemini，或者国内的通义千问、文心一言等语言模型采用的都是Transformer架构，Transformer是把文本拆解成token，让模型预测下一个token应该是什么的过程。

而Sora，将diffusion和transformer结合了起来，他们将视频分解成了一系列视觉补丁，也就是patchs，转换成patchs之后，就是tranformer架构大力出奇迹，暴力美学产生的时刻的，他可以把生成视频的任何转化成预测下一个patch应该是什么的过程。文字模型的Scaling low在这个过程中也就充分生效了。

当算力扩大之后，你可以看出质量有了非常明显的提升，如果算力再提升1000倍，10000倍会怎么样呢？

其次，这种diffusion+tranformer架构还带来了一层巨大的改变，就是可用训练语料的差异。原本的视频生成模型需要把所有训练素材切分成256*256的4秒钟的短视频。

但是tranformer架构的就没有这个限制，他可以接纳更丰富的视频分辨率和时长，比如这个潜水视频，左侧是pika、runway训练时需要切出来的画面，右侧是sora训练时可以采用的画面，同样要学习潜水世界的规则的话，你很容易理解为什么右侧的质量会更好。

最后，还有一层是为了训练文字生成图片的能力，sora需要理解文字和图片之间的对应关系。当你有一系列视频材料的时候，怎么告诉模型这个视频里有哪些内容是一件困难的事，一个方式是可以让人类去写，而OpenAI因为GPT+DALLE的基础，他们用AI就能出色的完成这件事。如果你是一个ChatGPT Plus的用户的话，你现在就可以尝试把不同的图片发给GPT-4让他进行解读和理解。

三、未来的几个预测

对于Sora带来的影响和视频生成领域的发展，我有以下7个预测。

预测1:未来半年到1年的时间内，至少会有3家以上公司赶上这个版本的Sora水平

因为OpenAI让世界知道了原来在视频生成领域也存在scaling low，堆算力堆数据原来是有效的，以及transformer+diffusion的模型是个相当正确的路径，在OpenAI指明方向后，很多公司就敢真正发力去做了。当然OpenAI会让Sora再进化，依然会是领先者的角色。

预测2:掌握更多高质量视频内容的平台会占据优势

不同于文本内容的开放性，大多数视频内容移动时代依靠手机摄像头产生的，而移动时代的app像一个又一个的孤岛，数据不互通，所以拥有YouTube的谷歌，拥有instagram的meta，拥有tiktok和抖音的字节更有可能成为视频生成时代的新赢家。

预测3:国内字节会成为该领域的领头羊

不止是因为他们拥有海量的视频数据，而更是因为他们输不起，当内容生产方式从手机摄像头向AI生成发生范式转移的时候，抖音和tiktok作为内容消费平台，不敢离开这种内容生成方式太远，赢家，不知内容消费的生态在那，但内容生产环节会发生革命性的变化。

预测4:广告和影视行业将在2年内被颠覆

目前视频生成模型做一个长片保持一致性依然困难，但是做广告和影视行业预告片已经绰绰有余，更别提依赖素材的信息流广告行业，整个行业就变得极为内卷，掌握Sora等AI视频工具的企业将会颠覆现在的制作公司。

预测5:视频模型将在自动驾驶领域得到应用，L5完全自动驾驶将在3年内到来

能生成就代表能理解，AI模型将通过汽车摄像头更准确地理解这个世界和它遇到的状态，自动驾驶行业会得到颠覆性的加速。

预测6:现实与非现实的边界变得模糊，会有大案引发社会舆论和政府监管的关注。

当眼见不一定为实的时候，我们人类可能需要重新去理解什么叫现实。非常建议去看看英剧《真相捕捉》。

预测7:英伟达将在3年内突破10万亿美金市值，成为世界上最具价值的公司。

因为任何AI应用都需要芯片的算力，芯片在各方面取代人类成为劳动力，而最高效供给这种劳动力的公司当然能收获相当大的价值。

四、申请Sora内测的方式

最后，再给大家介绍下有机会参与Sora内测的方式。在Sora的发布文档里，他们指出了正在红队队员合作进行模型测试，保障Sora推出时的安全性。

他们开放了这个「红队」的招募申请，你可以通过这个网站进行报名，一个小提示是，最好使用美国IP并选择自己居住在美国，然后也把自己的title写得高一些，最好是Phd。下面的问答题部分，你可以让ChatGPT来帮你写，写得动情一些，然后提交申请期待好运就好了。

注：本文首发于我的小报童专栏「ChatGPT精进指南」，如果你想学习更多ChatGPT使用技巧提升工作效率，欢迎通过以下链接或阅读原文订阅专栏：https://xiaobot.net/p/AIclass

逸尘的AI知识库

探索

Sora能力与原理详解_OpenAI暴力美学的又一次胜利