剪映上线5秒“AI克隆音色”,一堆AI公司又要进入慢性死亡了… * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }
剪映上线5秒“AI克隆音色”,一堆AI公司又要进入慢性死亡了…
原创 数字生命卡兹克 数字生命卡兹克 2024-01-24 19:39 天津
昨天,我登录我的剪映,无意中看到一个新功能。
“克隆音色”
当你添加文本时,在“文本朗读”那个功能中,点击“我的”tab,就能看到这个功能了。
我问了下剪映的朋友,他们说,目前还在小规模测试中,大概只有10%的人能拿到这个功能的体验资格。月底可能会全量上线。
坦率的讲,当我看到这个功能的那一刻,其实是心头一慌的。
不是为我自己而慌,毕竟我又不做产品。
我慌的是:AI声音这个赛道的创业者。
不管是过去的移动互联网时代,还是现在的AI时代,都有一个很灵魂拷问的问题是:
“当BAT/OpenAI,来下场干你的业务,你该怎么办”
尤记得去年11月OpenAI在召开开发者大会的时候,发布了一堆东西,直接全工具All in One。
也是在那一天,N多AI初创公司宣布进入死亡倒计时。
现在,当剪映这种巨头下场,把手伸到了AI,那,阁下该如何应对?
回过头来,说一下剪映这个AI音色克隆的使用和效果。
目前只有APP端有,路径就是我上面说的添加文本时,就能在“文本朗读”那个功能中。
不过我实在不习惯用APP,一直都是用的电脑端。就舔着老脸去找剪映的朋友化缘去了。
在过了几个小时之后。
于是,我就打开了我的剪映。
嘿嘿。
那两个声音,是我之前在手机上已经先克隆好的。
正常克隆声音,只需要点击那个+号。
在弹出的弹窗上,把他们给出的文案用你的声音读一遍,就OK了。
这步操作可能会跟大家想象的不太一样。
剪映的音色克隆,只能克隆自己声音的,而不能像一些现在市面上的开源项目一样,上传一段音频后,就能把那个人的声音克隆出来。
原因其实非常简单,隐私与风险。
你肯定不希望自己的声音漫天飞对吧,剪映的音色克隆对素材的需求量又非常低,5s基本就够了,如果放开的话,那真的随便复制。
出现这种情况,最开心的不是你我他,而是骗子。很容易就是你奶奶你妈妈的声音满天飞,然后跟你说:儿子哎,奶奶想买个LV,给奶奶打个2w块钱助力我一个老年梦好不。
且万一有一些人,如果真的石乐志,克隆一些官员的声音,那…后果基本不敢设想。
所以剪映的这个方式也挺有意思的,必须是你用录制的方式,念出文本上的随机的话,还不能念错。
用这种方式,来证明你是你。
大概画5到10秒录制完成以后,你的声音就会出现在“我的”tab下面了。我们直接用剪映的声音,来跟现在做火热的11Labs做个中文语种的对比(毕竟这是中国)。
我会放2组例子,每个例子会分别放男声的对比与女声的对比,以保证效果尽量客观全面。
男声会用我自己的声音,女声会用我的好朋友Jessy的。
我先放我们原本声音的音色:
1. 第一个例子:
男声:
女声:
2. 第二个例子:
男声:
女声:
效果非常爆炸,这个音色,基本完全一致。再看看11Labs,字不识几个,一股子赛博丁真口音,感觉想揍他。
在我体验过的5s数据音色克隆的项目中,目前剪映这个基本是最好的。
毕竟这玩意,看的还是底层声音大模型的质量,这个5s的录音数据,相当于一个小的prompt,来给这个声音大模型做一个提示。而剪映的这个声音大模型,确实有点东西,音色基本一致,在情感、断句上,有一点平,但是问题也不大。
熟悉豆包的朋友估计都能看出来,剪映这个AI音色克隆,跟豆包那个克隆,背后的大模型应该是一摸一样的。
但是豆包的用户体量肯定没法跟剪映比,豆包更像是技术的试验田,实验成熟之后,开始给剪映这种超级产品赋能。
一上来,就是个成熟度极高的王炸。
对于剪映来说,核心目的当然是为创作者提供体验最好的产品,理论上,现在市面上80%的AI工具,都是跟剪映的产品定位完全契合。
现在只是一个AI音色克隆。
那如果类似heygen的5分钟视频生成数字人,AI数字人定制剪映也做进去了呢?
如果D-ID那种照片说话剪映也做进去了呢?
如果AI唱歌剪映也做进去了呢?
如果…
一将功成万骨枯。
工作流的影响是巨大的,迁移成本极高。试问,在效果差不多的情况下,谁还去用别家的音色克隆产品?剪映的生态、粘性、用户体验、产品成熟度实在太恐怖了。
不过他们毕竟体量在这,要照顾大众需求,所以一定不会做的非常专业,那卷专业方向的可能还跟他们暂时碰不到一块,比如出门问问的魔音工坊,在情绪表达和可控性上能碾压剪映,用户群里也是更为专业的配音或自媒体从业者。
但是,AI创业公司,如果也想做AI声音这块的大众需求,那可能就日子不太好过了。
毕竟跟你竞争的,不是同咖位的竞品,而是剪映这样的巨兽。除非避开它的发力方向,或者直接在技术上把剪映拉开代差,那还有得一战。
要不然,就可能像被OpenAI锤懵的一些AI初创公司一样,陷入慢性死亡…
**当然,世间所有人,喜欢的故事,都是勇士屠龙。
**
人们爱看绝境翻盘,向死而生。
从那绝境中的黑暗,破晓而出,对着那高山一般的巨龙,一击毙命。
这种故事太迷人人了。
我想看。
我也相信,可能会有这么一个勇士,提着屠龙刀,正缓缓的走在路上。
路的尽头,有一条如山般巍峨的巨龙。
还有。
光。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。
数字生命卡兹克
 阅读 赞  分享 ‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言