我测了12个小时的RunwayGen3,发现这就是AI视频的No.1。 * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }

我测了12个小时的RunwayGen3,发现这就是AI视频的No.1。

原创 数字生命卡兹克 数字生命卡兹克 2024-06-30 12:01 北京

原文地址: https://mp.weixin.qq.com/s/PHws2GSz9OIZIfm3Piz-RA

昨天,众多AI视频创作者翘首以盼的Runway的Gen3,终于面向部分超级合作者开放了。

我的好基友@闲人一坤也是第一时间拿到了内测资格,我就直接把号要来了。

我从中午到凌晨,跑了12个小时,几百个Case。

发现我之前开的香槟,没开早。

先放几个我觉得还不错的case。

Runway Gen3,在模型质量上,还是能把Luma和可灵拉开一些差距,特别是审美上。虽然也就是70分跟60分的区别,但至少,在模型质量上,确实是我认为的当今No.1。

不过,现在只****上了文生视频,图生和那些可控工具还没上。

给我急急急急急急急急急急急急急急急急死了。

在我跟坤哥瞎吉尔一顿跑了快100个case之后,我决定还是偏系统性的测一下,这个系统只是比瞎跑系统一点,肯定比不过南洋理工或者上海人工智能实验室那种专业级别的测试,所以别杠我,杠就是你对= =

测试的构筑方法上,其实我之前想了蛮久的,去年我其实规划过一版测试维度,大类上有语义理解、画面细节质量、运动质量、镜头移动质量、一致性、衰减性等等。

然后比如在运动幅度上,又可以拆为:人脸五官运动质量、人物肢体运动质量、动物运动质量、刚体运动质量、流体运动质量等等。。。

写完以后我就觉得太特么扯淡了,不是这个划分扯淡,是我的人力有点扯淡。真要这么跑一遍,那我就好几天啥事都不用干了。。。

所以现在,为了达到成本与效率最优解,我就非常简单粗浅的,按风格去划分,分为:

写实风格、动画风格、科幻风格、玄幻风格、抽象风格。

每个风格里面跑10~15个prompt,每个prompt roll三遍,虽然只有文生视频,但其实也基本能看出来模型整体质量和特征了。

而写prompt这活,当然是交给AI去干了。

毕竟有公式可以套:

Prompt = 镜头语言+光影+主体描述+主体运动+场景+氛围。

然后我就让GPT根据公式和规则,给我哐哐哐的写了几吨的prompt。

再把这些prompt,扔到gen3里面跑case。

目前只能用文生视频,其他的功能都还没上。在最下面可以切换生成视频的片段长度,可选5s和10s两种。

生成速度非常的快,亲测10s的基本也就1分半就能跑出来,这个可比Luma好多了,那玩意动不动十几分钟。。。

所有的case,我也都放到飞书文档里,有兴趣想全看一遍的,对着我公众号关注后在后台私信”gen3”就能拿到链接了。

而文章碍于篇幅,我就每个风格,展示5个有代表性的case,让大家一睹为快。

(注:在gen3中生成视频我使用的都是英文,下面的是为了方便大家看所以所有prompt才都翻译成了中文)

一.写实风格

写实风格测试的东西很简单,主要就是看现实城市街景、自然风光、室内场景等,也看看人物的面部表情、光影效果、细节纹理等。

核心还是现实世界的写实。

1. 特写镜头,温暖的晚霞,一位长发飘逸、面带温柔微笑的年轻女子,坐在咖啡馆的露台上,轻啜咖啡,背景中是模糊的城市景观和人群交通,氛围放松而舒适。

这个可以看到杯子是变形的,手的位置也很奇怪。除了这两问题之外,其他都还挺稳。

2. 中景镜头,刺眼的正午阳光,施工现场的工人们穿着安全装备操作起重机,背景中耸立着摩天大楼,氛围动态而繁忙。

这个问题就非常多了,肢体变形,人物消失,穿过了明明在远方的杆子,摩天大楼的细节也有问题。

3.低角度镜头,戏剧性的侧面光,一位专业厨师在繁忙的厨房里切菜,周围蒸汽弥漫,锅碗瓢盆悬挂,氛围紧张而专注。

地狱难度,涉及到切菜也就是人、刀、菜的三者交互,所以基本都跟魔法一样,不能看。

4.倾斜镜头,傍晚的街灯**,一位音乐家在繁华的街角弹吉他,行人匆匆而过,商店门面上明亮的霓虹灯,氛围热闹而充满活力。**

算是很能夸的一个镜头了,人物主体是非常稳定的。但是背景过于复杂,很明显的BUG就是刚开始的车开过去的时候,有个粉衣服的人是跟车合为一体的。。。

5.极限特写镜头,自然光线,一位画家的手在调色板上混合颜色,背景是画布和画架,手指上沾有颜料,氛围专注而富有创造力。

很棒的一个镜头。是能明显的感受到有因果关系的,手和笔会影响颜料,还有粘连的效果。虽然肯定没法跟现实世界比,但是已经很不错了。

**总结:**写实风格整体看,还是人物特写和风景最稳,一旦涉及到全景或者中景,当人物没有足够的面积空间时,肢体变形就极为严重,但是如果不涉及到人物与物体的交互,那稳定性还是非常强的。

而Runway有一说一,在光影的审美上,是真的强。毕竟电影出身,审美是真舒服。

二.动画风格

主要就是看对各种风格的包容度以及审美,比如2D、3D、皮克斯、吉卜力等等。

1.特写镜头,柔和的晨光,一位粉色头发、大眼睛的年轻女孩,日式动漫风格,望着窗外,樱花在空中飘落,背景是传统的日本房屋,氛围宁静且怀旧。

风格倒是正常,樱花飘的也很好看,就是人物动态太少,跟写实比差太多了,基本没有任何表演可言。

2.中景镜头,夕阳余晖,一位未来派机器人和一个人类女孩,3D动画风格,走在霓虹灯闪烁的街道上,周围是全息标志和飞行汽车,城市景观中高耸的建筑,氛围鲜活且高科技。

我真不是故意吓大家才把这个传上来的,是他真的BUG的有特点,因为我跑出来好多前后不分的视频,这个就是典型代表。。。

3.高角度镜头,明亮的正午阳光,一群充满活力的玩具复活,皮克斯风格,在一个孩子色彩缤纷的卧室里,玩具车和动作人物四处移动,氛围愉快且充满活力。

奇奇怪怪的镜头,风格也不是皮克斯的典型风格,物体也都是莫名其妙的出来,最后小熊突然变成积木飞了那一瞬间我是真没绷住。

4.跟踪镜头,柔和的黄昏光,一位勇敢的少女战士,手持发光的剑,幻想动漫风格,跑过一片迷人的森林,周围是神话生物和古老遗迹,氛围史诗且冒险。

除了手上那把剑不知道是个什么玩意,也没有神话生物和古老遗迹啥的,都挺好。

5.越肩镜头,昏暗的室内灯光,一位年轻的巫师手持魔法书,中世纪动漫风格,在宏伟的图书馆中施法,书架上摆满了古老的书籍和魔法神器,氛围神秘且魔幻。

最后的那一下特效帅炸了,就是人物的脸变形了,从一个异瞳萌妹不知道是个什么玩意,而且也不是越肩视角,不过越肩视角这个就不强求了,没几个能画出来的。

**总结:**动画风格整体化上,其实都挺差劲的,吉卜力、3D、美漫啥的效果表现都极差,整体审美、物理动态也比写实差很多,明显感受到了数据集的不足,runway整体还是非常的偏写实和电影的。

三.科幻风格

我自己最喜欢的风格,主要看模型的数据集和泛化能力,能不能把一些很科幻的场景表现出来。应该也是我跑得最多的case,好像文档里放了将近20个。

1.广角镜头,霓虹城市灯光反射在金属表面,一个巨型机甲从一个流线型车辆变形为高耸的机器人,齿轮和面板无缝转换,背景中有未来感的摩天大楼和飞行汽车,氛围****紧张且高科技。

我是有多想不开才会让AI给我跑变形金刚。但是他居然变了出来,虽然整体都很奇怪,但是至少是变了,这个prompt理解是猛的。。。

2.中景镜头,鲜艳的蓝色和银色调,两台机甲陷入史诗般的战斗,迅速交换打击并发射能量武器,四周是烟雾和爆炸的破坏性城市战场,氛围充满动感和动作感。

真的,帅炸了,我爱惨了,这打架是正儿八经会打起来的啊,真的会爆炸啊!科幻还是得runway啊!

3.跟踪镜头,昏暗的走廊,一群太空海军陆战队小心翼翼地穿过废弃的飞船,灯光闪烁和诡异的声音,氛围紧张且悬疑。

整体都很稳,氛围和质感也无敌,就是有个人出BUG卡门里了。。。

4.广角镜头,旋转的五彩斑斓的漩涡,一个流线型的时间旅行飞船快速穿过隧道,周围是光线和能量轨迹,氛围令人兴奋且超凡脱俗。

这光影,这质感,想哭,我的新片子,想马上就要开始做了卧槽!!!

5.特写镜头,强烈对比的照明,一个宇航员在空间站外漂浮,背景中可见地球和月亮,星星在头盔面罩上反射,氛围寂静且孤立。

这种大特写,必然稳定的一笔,人物还有眼球表演,只能说,牛逼。

**总结:**没啥可说的,在科幻领域上,runway就是No.1,其他都得靠边站。我的新片子,已经开始准备了,有点兴奋的睡不着觉了。

四.玄幻风格

跟科幻一样,也偏想象,很吃数据集和泛化。主要就是看魔法、神话世界啥的。

1.特写镜头,柔和温暖的灯光,一位年轻的女巫师,眼睛发光,手持顶端有水晶的法杖,长袍上有复杂的符文,背景是迷人的森林,氛围魔法且宁静。

所有的一切都很稳,除了只有三根手指,否则就是完美的。

2.越肩镜头,昏暗的火炬光,一个盗贼在黑暗地牢里撬开一扇巨大的华丽门锁,周围是古老的符号和蜘蛛网,氛围紧张且秘密。

很有趣的一个是人走过火的时候,手上真的有东西被点着了。当然BUG问题很大,门最后变成了现代门。而且顶上出来了游戏的方位条,感觉是扒了刺客信条的数据集。

3.广角镜头,月光之夜,一个覆盖着发光符文的巨型石像从密林中出现,树木摇晃,脚下的地面开裂,背景是古老的遗迹,氛围神秘且不祥。

有一种憨批巨像的即视感,除了人物丑,没啥其他的问题。

4.倾斜镜头,月光之夜,一群精灵在神圣的树林中进行仪式,发光的符文和魔法能量在他们周围旋转,古老的树木和星空,氛围神秘且敬畏。

雕像造型上非常克苏鲁魔幻的一段,最后的光效非常华丽,runway不愧是电影出身,这小特效做得一个比一个顶。

5.广角镜头,梦幻般的灯光,一座古老的城堡坐落在悬崖上,周围环绕着旋转的雾气,天空中一条龙翱翔,中世纪幻想风格,氛围壮丽且神秘。

龙的画面面积太小了,所以还是那个问题,风控变形,其他都很准,也很理解语义。

**总结:**玄幻相比之下,没有runway的科幻那么长板,还是会弱一些,适合做西方玄幻,中国玄幻不好测,等出图生视频了再测,效果不一定有可灵强。

五.抽象风格

抽象风格其实就是测试抽象的几何图形、色彩斑斓的空间、不规则形状等等,主要关注形状、颜色、运动和情感,而不是具体的物体或场景。

1.特写镜头,明亮霓虹色与暗背景形成鲜明对比,分形图案有节奏地扩展和收缩,氛围强烈且令人着迷。

我是没想到gen3的分形艺术能做的这么稳这么好。。

2.低角度镜头,鲜明的黑白色调,锐利的角形图案不规则地移动,创造出混乱和迷失方向的感觉。

这就是艺术,没啥可说的,最后有点不稳了。

3.摇摄镜头,明亮的彩色粒子旋转并汇聚成抽象的形态,营造出一种生动的运动和兴奋感。

想起了我以前用C4D做的粒子效果,妈的辛辛苦苦渲半天,还真不如这个。。。

4.跟踪镜头,流动的金属表面反射环境光,形状在移动中拉伸和弯曲,营造出一种未来主义的超现实感。

液体金属质感无敌,这以后谁尼玛还做特效啊= =

5.广角镜头,鲜艳颜色的渐变平滑融合,重叠的半透明几何图形缓慢旋转,营造出一种平静和流动的感觉。

无敌,这颜色渐变,再调调能追上苹果了。。。

**总结:**gen3的抽象艺术,是我完全没想到能做到这么好的程度,对AE包装这块的冲击可能会有点大,这种特效以后都不用做了,AI直出。。。

写在最后

上面的case,只是部分。

所有的其他case,我都放在了飞书文档里,想要看全部的,关注我公众号后,后台私信”gen3”就有了。

Runway这一波,还是展现了自己作为老牌公司的实力,整整六年时间的沉淀。

就像他们老板自己说的那样。

一夜成名,从不存在。

这背后是时间、精力、金钱的积累,是在低谷期在睡不着觉的时候的疯狂的煎熬。

所以,才有了今天的Runway。

谁没有过低谷,谁没有过煎熬呢,但是他们撑了过来,用这六年在电影工业和AI技术上的积累,做出了比同行高一等审美和技术力的大模型。

前方的路,还很漫长。

他们当然也有可能有无数的挑战。

但是,至少在今天。

他们就是我心中那实至名归的。

No.1。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com

数字生命卡兹克

![](data:image/svg+xml,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E%3C!— Icon from Lucide by Lucide Contributors - https://github.com/lucide-icons/lucide/blob/main/LICENSE —%3E%3Cg fill=‘none’ stroke=‘%23888888’ stroke-linecap=‘round’ stroke-linejoin=‘round’ stroke-width=‘2’%3E%3Cpath d=‘M2.062 12.348a1 1 0 0 1 0-.696a10.75 10.75 0 0 1 19.876 0a1 1 0 0 1 0 .696a10.75 10.75 0 0 1-19.876 0’/%3E%3Ccircle cx=‘12’ cy=‘12’ r=‘3’/%3E%3C/g%3E%3C/svg%3E) 阅读![](data:image/svg+xml,%3Csvg width=‘25’ height=‘24’ viewBox=‘0 0 25 24’ fill=‘none’ xmlns=‘http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=‘evenodd’ clip-rule=‘evenodd’ d=‘M16.154 6.797l-.177 2.758h4.009c1.346 0 2.359 1.385 2.155 2.763l-.026.148-1.429 6.743c-.212.993-1.02 1.713-1.977 1.783l-.152.006-13.707-.006c-.553 0-1-.448-1-1v-8.58a1 1 0 0 1 1-1h2.44l1.263-.03.417-.018.168-.015.028-.005c1.355-.315 2.39-2.406 2.58-4.276l.01-.16.022-.572.022-.276c.074-.707.3-1.54 1.08-1.883 2.054-.9 3.387 1.835 3.274 3.62zm-2.791-2.52c-.16.07-.282.294-.345.713l-.022.167-.019.224-.023.604-.014.204c-.253 2.486-1.615 4.885-3.502 5.324l-.097.018-.204.023-.181.012-.256.01v8.218l9.813.004.11-.003c.381-.028.72-.304.855-.709l.034-.125 1.422-6.708.02-.11c.099-.668-.354-1.308-.87-1.381l-.098-.007h-5.289l.26-4.033c.09-1.449-.864-2.766-1.594-2.446zM7.5 11.606l-.21.005-2.241-.001v8.181l2.45.001v-8.186z’ fill=‘%23000’/%3E%3C/svg%3E) 赞 ![](data:image/svg+xml;charset=utf8,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E %3Cg fill=‘none’ fill-rule=‘evenodd’%3E %3Cpath d=‘M0 0h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M13.707 3.288l7.171 7.103a1 1 0 0 1 .09 1.32l-.09.1-7.17 7.104a1 1 0 0 1-1.705-.71v-3.283c-2.338.188-5.752 1.57-7.527 5.9-.295.72-1.02.713-1.177-.22-1.246-7.38 2.952-12.387 8.704-13.294v-3.31a1 1 0 0 1 1.704-.71zm-.504 5.046l-1.013.16c-4.825.76-7.976 4.52-7.907 9.759l.007.287c1.594-2.613 4.268-4.45 7.332-4.787l1.581-.132v4.103l6.688-6.623-6.688-6.623v3.856z’/%3E %3C/g%3E%3C/svg%3E) 分享 ![](data:image/svg+xml;charset=utf8,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E %3Cdefs%3E %3Cpath id=‘a62bde5b-af55-42c8-87f2-e10e8a48baa0-a’ d=‘M0 0h24v24H0z’/%3E %3C/defs%3E %3Cg fill=‘none’ fill-rule=‘evenodd’%3E %3Cmask id=‘a62bde5b-af55-42c8-87f2-e10e8a48baa0-b’ fill=‘%23fff’%3E %3Cuse xlink:href=‘%23a62bde5b-af55-42c8-87f2-e10e8a48baa0-a’/%3E %3C/mask%3E %3Cg mask=‘url(%23a62bde5b-af55-42c8-87f2-e10e8a48baa0-b)‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ![](data:image/svg+xml,%3Csvg width=‘25’ height=‘24’ viewBox=‘0 0 25 24’ fill=‘none’ xmlns=‘http://www.w3.org/2000/svg’%3E%3Cpath d=‘M22.242 7a2.5 2.5 0 0 0-2.5-2.5h-14a2.5 2.5 0 0 0-2.5 2.5v8.5a2.5 2.5 0 0 0 2.5 2.5h2.5v1.59a1 1 0 0 0 1.707.7l1-1a.569.569 0 0 0 .034-.03l1.273-1.273a.6.6 0 0 0-.8-.892v-.006L9.441 19.1l.001-2.3h-3.7l-.133-.007A1.3 1.3 0 0 1 4.442 15.5V7l.007-.133A1.3 1.3 0 0 1 5.742 5.7h14l.133.007A1.3 1.3 0 0 1 21.042 7v4.887a.6.6 0 1 0 1.2 0V7z’ fill=‘%23000’ fill-opacity=’.9’/%3E%3Crect x=‘14.625’ y=‘16.686’ width=‘7’ height=‘1.2’ rx=’.6’ fill=‘%23000’ fill-opacity=’.9’/%3E%3Crect x=‘18.725’ y=‘13.786’ width=‘7’ height=‘1.2’ rx=’.6’ transform=‘rotate(90 18.725 13.786)’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言