快手可灵1.6正式上线,他们又一次超越了自己。 * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }

快手可灵1.6正式上线,他们又一次超越了自己。

原创 数字生命卡兹克 数字生命卡兹克 2024-12-19 10:07 上海

原文地址: https://mp.weixin.qq.com/s/Xi1jnOUbejZ14_bHRfDNmQ

临近年末,各家AI视频公司好像也都着急过年,模型一个接一个更新。

测不完,根本测不完。

周二我刚发完谷歌Veo2的文章,就说过内部测评里除了它亲儿子,可灵1.5在盲测中评价最高。

结果文章还挂在头条上躺着,昨天登录可灵一看,他们全新的1.6版本,就这么水灵灵的上线了。

真实的商战,就这么朴实无华(狗头)。

二话不说,直接开测。

可灵网址在此:https://klingai.kuaishou.com/

我花了几个小时把1.6版本按我的测试维度都给跑了一遍。

说真的,虽然看起来就是涨了0.1的版本号,但是,真的一点都不水。

而且价格没有一丁点变化,5s的高品质视频跟1.5一样,是35灵感一条,非常良心。

这次更新的重点就是图生视频,有一波巨大的飞跃,能力的提升点总结成三点来说就是:

**物理规律真实感大幅提升,**人物运动表演更强,语义理解大幅提升。

尤其是物理规律和人物动作,真的惊艳到我了。

这回文生视频、运动笔刷之类的没有特别大的更新,所以测试内容也很简单很清晰:纯测模型的图生视频能力,纯底模无添加无修改。

话不多说,Case一个一个给大家看。

一. 更真实的物理规律

这一波,可灵1.6的物理规律来了一波超进化。

现在它能切食物,能虚空倒茶,甚至,能跳舞了

Veo2切西红柿的视频前两天在X上霸屏了,这次可灵1.6,居然就给接住了。

我先跑了这么一张图。

然后扔到可灵的1.6图生视频里,Prompt是:厨师正在把西红柿切成片。

先给大家看看1.5版本的切西红柿。

第一刀还行,第二刀就开始GG了,开始出现重影和变形。

但是1.6的稳定性,惊人的强。

1.6版在切东西的表现上几乎是碾压1.5,刀具、食材、切片的物理反馈都精准到位。

刀和西红柿的物理反馈简直绝了,刀压下去的力度、西红柿被切开的质感,物理呈现很可以。

对比三个月前的1.5还在炸厨房,现在这水平都能去米其林应聘了。

倒水的效果进步也很明显,比如一张水壶的图,然后写一段Prompt:水壶往水杯里倒茶。

1.5的时候,可灵还不能准确识别杯子和茶壶的关系,凭空出现第二个壶往盖子上倒茶,也是挺好玩的。

但是1.6完全不一样,虚空倒茶是真的秀。

流体的运动表现、杯子跟茶壶口的角度关系上,已经基本符合常理了。

还有这两个小猫和小狗的case:

猫主子走过沙发,沙发垫直接凹下去;金毛狗撒欢,毛发跟着哗啦啦。

啥叫物理真实感,这就是。

还有这个我非常喜欢的小精灵蹦跳。

真的有那种跳跃的物理质感了,帽子的甩动也是随着重力飘荡,很帅。

还有人与物理的交互,比如,我很喜欢的电影《楚门的世界》经典的结尾画面。

这张图的运动趋势很明显,就是让人走上台阶。但是墙壁上的影子,以及在电影剧情中楚门略带试探的动作,对AI视频来说都是难点。

我用的prompt是:男人有些犹豫和试探地伸出手扶着墙壁,然后一步一步走上台阶,抬头张望。

可灵的答卷,没有让我失望。

一致性不用说,包稳的。走上台阶时膝盖部分的物理规律,以及墙壁上跟着变化的影子,可灵也都做的很好。

说真的,这一段稍微后期修一下,感觉真能用在电影里。

还有这个蝙蝠侠飙车的case,压弯贼帅,披风完美。可灵自己补的街景和角度也不错。

这就是可灵1.6,可能就是,当今图生视频的,No.1。

**.**人物运动表演加强

可灵之前的人物演技不够强的弱点,这次也给打上补丁了。

首先就是表情。人物的神态细节的变化1.6进步非常大,比如这段:

Prompt:女人看到什么,表情不耐烦地皱了皱眉。她无语地翻了一个白眼后走下楼梯。

人物的动作变化完全照prompt的顺序来的,很稳。而且我感觉1.6在表情这块的突破真有点东西,角色的面部细节、呼吸时颈部肌肉的变化。。。

我真的头一次见到AI把无语的神态做的这么真的,还有那一下封神的叹气。

这个演技别说内娱了,我感觉美剧都可以混进去演演。

还有这个case:

Prompt:火车行驶中。老人低头读报纸,看到某一段文字表情变得很惊讶。

两个版本放一块儿,足够明显了。

1.6版本这段眼神变化、情绪表演、环境光照和运动都相当到位,没有一点闪烁。连窗外的内容都很稳。

同样的图和prompt在1.5版本虽然火车和窗外的环境运动速度更快,但报纸的闪烁真的很难忽略,老人表情也完全没跟上剧情。

新版本完胜。

当然,表演除了面部,肢体动作的表演也很重要。

最牛逼的是:可灵,能跳舞了

我第一个测的是人物肢体比较清晰的芭蕾舞。

Prompt:芭蕾舞者优雅地表演旋转舞步。

写prompt的时候我其实是纯想刁难可灵的,第一个测试说实话我就有点被打脸了,它不仅能“旋转”,居然还给我换了个腿。。。

两个版本直接对比,没啥好说的。1.6这个物理逻辑、肢体肌肉的表现、画面稳定性都太吓人了。

肢体表现一上来就这么稳,我就更想上点难度考验一下它,比如测试AI舞蹈里的高难度内容:中国古典舞。

这个case我用来图生视频的是河南卫视《洛神》水下舞的截图。

图长这个样子:

原版的表演当年刷爆社交媒体,水下舞和飘带的结合把壁画里的飞天神女在现实里呈现。

中国古典舞对AI视频来说难点挺多,不仅要实现肢体上“跳舞”的大幅度动作,还得按照物理逻辑,展现水下飘带的运动、环境光照质感等等。

这个Case对AI,绝对是一个大挑战。

先看1.5版本的:

1.5其实也很稳了,飘带的表现很出色。可惜还是没有实现真正的“舞蹈动作”,肢体到后面几秒也没绷住。

所以在1.6版roll出来的时候,不夸张的说,我真被吓了一跳:

看到舞者手臂扭的第一下,我就懵了。然后,还不止挥手臂一次,真能跳舞啊?

这个肢体的动作幅度、这个物理、这个光照表现。。。

可灵你确定只更新了0.1版本?

虽然只有短短几秒,但人物肢体动作幅度很大,而且几乎没有太大的错误,连衣服的一致性都很好。除了飘带确实有点不稳,其他都做得像模像样。

别问我觉得牛不牛,问就是牛炸了。

说真的,这个case跑出来,我感觉可灵还能在国产AI视频的王座上,稳坐江山。

三.语义理解加强

可灵自己在1.6的标注上写的第一个就是“提示词响应大幅提升”。

所以基于语义,那必须先来个连续动作测试:

Prompt:女孩摘下眼镜,拥抱一只朝她跑来的小鹿。

小鹿是完全在画面外的,摘下眼镜、拥抱小鹿。

这个稳定性,太强了,整个主体都很稳,唯一的小瑕疵是后面的背景的鹿,因为太多,有一点扭曲,但是也很好了。

还有这个语义理解完成度很高的case:

Prompt:右边的男人后退一步,举起枪,枪口对着左边男人的额头。镜头迅速拉远,拍摄他们站在天台上。

这次可灵测下来,我感觉不仅是语义理解,它对上传图片的画面理解进步也很大。基本每次都能准确识别我说的“左边”和“右边”的主体具体是哪个,真·听得懂人话。

比如这个case里,识别人物站位正确,并且让右边的角色“后退一步,举起枪,枪口对着左边男人的额头”。

这一连串的动作实现的顺序、动作自然程度也完全OK,非常炸。

除了最后大幅度的运镜有点遗憾,但是当上线控制运镜的功能,我觉得也

就不是问题了。

再比如这个风暴兵和小坐骑的case,prompt是:主人公骑着坐骑前行,然后跳下来自己在地面上走路。

从坐骑背上跳下来的动作逻辑非常OK,除了跳起来那一下脚有一点点没绷住,其他都很好。

整体来看。

进步,无需多言。

写在最后

当然,可灵毕竟也只更新了0.1个版本,主要也是图生视频的巨幅更新。

可以改进的地方也还是不少。

比如前面的case里,舞蹈和猫猫狗狗跳跃的动作虽然真实感做得很好,但生成慢动作的概率会有点大。

以及生成的视频内容有原图之外的内容的话,在审美上有待加强。

这个猫爬椅子的case,很典型地表现了可灵的优点和缺点:非常出色的物理逻辑和审美待加强。

这个视频我用的原始图片是只有一张椅子,狸花猫是可灵自己生成的。猫爬上椅子晃的那一下很绝。但是这只猫的毛色还有质感,和原图的画风还是会有一点不太匹配。

还有多人物的动作细节,尤其是人物的手指,虽然有很大进步了,但是在多人的复杂场景下,还是会出现BUG,但是这个也是所有AI视频的通病。

圣诞老人这个case里,中间的圣诞老人还好些,旁边俩小孩的手,三个人手里的面皮,崩得比较明显。

但是这样的效果,其实也是所有可用的AI视频里,几乎最好的了。

不过说回来,作为一个0.1的版本更新,能做到这个程度已经很赞了。

等到2.0的时候,那估计就是,一步登天。

现在回头想想,可灵的进化速度是真的离谱。

可灵正式上线是今年6月6号,截止我发文这天,满打满算差不多半年的时间。

而这半年,几乎是改写了整个行业。

我在1.5的测评文章里曾经写到:

希望可灵,希望快手这个老铁,每一步都走的足够扎实。

他们的确做到了。

别人家还在画饼的时候,可灵已经把饭做香了。

在AI视频领域,我觉得永远可以说一句:

你永远可以相信可灵。

从“中国的Sora”到“世界的可灵”。

期待可灵在它真正更新的可灵v2版本时。

会继续给我们,更大的惊喜。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克、稳稳

>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com

数字生命卡兹克

![](data:image/svg+xml,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E%3C!— Icon from Lucide by Lucide Contributors - https://github.com/lucide-icons/lucide/blob/main/LICENSE —%3E%3Cg fill=‘none’ stroke=‘%23888888’ stroke-linecap=‘round’ stroke-linejoin=‘round’ stroke-width=‘2’%3E%3Cpath d=‘M2.062 12.348a1 1 0 0 1 0-.696a10.75 10.75 0 0 1 19.876 0a1 1 0 0 1 0 .696a10.75 10.75 0 0 1-19.876 0’/%3E%3Ccircle cx=‘12’ cy=‘12’ r=‘3’/%3E%3C/g%3E%3C/svg%3E) 阅读![](data:image/svg+xml,%3Csvg width=‘25’ height=‘24’ viewBox=‘0 0 25 24’ fill=‘none’ xmlns=‘http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=‘evenodd’ clip-rule=‘evenodd’ d=‘M16.154 6.797l-.177 2.758h4.009c1.346 0 2.359 1.385 2.155 2.763l-.026.148-1.429 6.743c-.212.993-1.02 1.713-1.977 1.783l-.152.006-13.707-.006c-.553 0-1-.448-1-1v-8.58a1 1 0 0 1 1-1h2.44l1.263-.03.417-.018.168-.015.028-.005c1.355-.315 2.39-2.406 2.58-4.276l.01-.16.022-.572.022-.276c.074-.707.3-1.54 1.08-1.883 2.054-.9 3.387 1.835 3.274 3.62zm-2.791-2.52c-.16.07-.282.294-.345.713l-.022.167-.019.224-.023.604-.014.204c-.253 2.486-1.615 4.885-3.502 5.324l-.097.018-.204.023-.181.012-.256.01v8.218l9.813.004.11-.003c.381-.028.72-.304.855-.709l.034-.125 1.422-6.708.02-.11c.099-.668-.354-1.308-.87-1.381l-.098-.007h-5.289l.26-4.033c.09-1.449-.864-2.766-1.594-2.446zM7.5 11.606l-.21.005-2.241-.001v8.181l2.45.001v-8.186z’ fill=‘%23000’/%3E%3C/svg%3E) 赞 ![](data:image/svg+xml;charset=utf8,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E %3Cg fill=‘none’ fill-rule=‘evenodd’%3E %3Cpath d=‘M0 0h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M13.707 3.288l7.171 7.103a1 1 0 0 1 .09 1.32l-.09.1-7.17 7.104a1 1 0 0 1-1.705-.71v-3.283c-2.338.188-5.752 1.57-7.527 5.9-.295.72-1.02.713-1.177-.22-1.246-7.38 2.952-12.387 8.704-13.294v-3.31a1 1 0 0 1 1.704-.71zm-.504 5.046l-1.013.16c-4.825.76-7.976 4.52-7.907 9.759l.007.287c1.594-2.613 4.268-4.45 7.332-4.787l1.581-.132v4.103l6.688-6.623-6.688-6.623v3.856z’/%3E %3C/g%3E%3C/svg%3E) 分享 ![](data:image/svg+xml;charset=utf8,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E %3Cdefs%3E %3Cpath id=‘a62bde5b-af55-42c8-87f2-e10e8a48baa0-a’ d=‘M0 0h24v24H0z’/%3E %3C/defs%3E %3Cg fill=‘none’ fill-rule=‘evenodd’%3E %3Cmask id=‘a62bde5b-af55-42c8-87f2-e10e8a48baa0-b’ fill=‘%23fff’%3E %3Cuse xlink:href=‘%23a62bde5b-af55-42c8-87f2-e10e8a48baa0-a’/%3E %3C/mask%3E %3Cg mask=‘url(%23a62bde5b-af55-42c8-87f2-e10e8a48baa0-b)‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ![](data:image/svg+xml,%3Csvg width=‘25’ height=‘24’ viewBox=‘0 0 25 24’ fill=‘none’ xmlns=‘http://www.w3.org/2000/svg’%3E%3Cpath d=‘M22.242 7a2.5 2.5 0 0 0-2.5-2.5h-14a2.5 2.5 0 0 0-2.5 2.5v8.5a2.5 2.5 0 0 0 2.5 2.5h2.5v1.59a1 1 0 0 0 1.707.7l1-1a.569.569 0 0 0 .034-.03l1.273-1.273a.6.6 0 0 0-.8-.892v-.006L9.441 19.1l.001-2.3h-3.7l-.133-.007A1.3 1.3 0 0 1 4.442 15.5V7l.007-.133A1.3 1.3 0 0 1 5.742 5.7h14l.133.007A1.3 1.3 0 0 1 21.042 7v4.887a.6.6 0 1 0 1.2 0V7z’ fill=‘%23000’ fill-opacity=’.9’/%3E%3Crect x=‘14.625’ y=‘16.686’ width=‘7’ height=‘1.2’ rx=’.6’ fill=‘%23000’ fill-opacity=’.9’/%3E%3Crect x=‘18.725’ y=‘13.786’ width=‘7’ height=‘1.2’ rx=’.6’ transform=‘rotate(90 18.725 13.786)’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言