10秒钟复刻AI付航吐槽一切,这就是现在最好的TTS声音克隆。 * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }
10秒钟复刻AI付航吐槽一切,这就是现在最好的TTS声音克隆。
原创 数字生命卡兹克 数字生命卡兹克 2024-10-21 09:30 北京
上周末,我追了两个月的脱口秀,终于总决赛了。
周六我一边看LOL S14总决赛,一边看《喜剧之王单口季》,真就体会了一把什么叫心态过山车。。。拉的很拉,稳的很稳。
好在脱口秀这边,我一直很喜欢的演员付航,不负众望地拿到了总冠军。决赛这场他还是“Passion”到极点,劲儿给得太足了。
这场的段子和表演都太NB。给我看的笑中带泪,真的。
付航的表演给我的感觉就是纯粹的好笑,不需要你绞尽脑汁去思考什么“上价值”。看了就想笑,笑完还想再看,好笑本身就足够有价值。
看付航夺冠我呲着的大牙还没收回去。一转头看LPL那边,瞬间失去所有力气和手段。付航的Passion要是能借TES一点,也不至于让我看得这么无语。
0:3,直接被暴虐。被飞科按在脚底下摩擦。
太小丑了。。
知乎和微博更不用说,当晚看比赛的全在吐槽和破防,逛超话都给我看笑了。
就在那一瞬间,我脑子里冒出了一个很有趣的点子:要是能让付航,帮我狠狠吐槽TES,简直完美就是完美的联动。。。
可惜我抢不到付航线下脱口秀的票。更不认识他。。。
但是,咱有AI啊。
那,说干就干。
效果大概就是这样的。
让我们☝️说中文👐!
这语气这效果,离川普就差一个手风琴了。
这把,就用F5-TTS,直接让AI付航当当我的嘴替吧。
F5这玩意牛逼就牛逼在只需要15秒,就能克隆任何声音,最关键的是,还是开源的,免费本地就可以跑。
而且使用贼简单,你也可以跟着手搓一个AI声音替你吐槽。
当然,为了大家能上手即用,我们也给大家做了整合包,配好了环境,下载好了各种需要到的模型,大家可以一键部署使用。
你对着公众号私信”F5”就自动有下载链接了。
并且相比于原版的UI,我们也给大家做了汉化,方便大家使用(其实是我自己看不懂英语。。。)
首先下载完,解压压缩包,得到完整目录如下。
然后点击 一键运行.bat,终端会自动跳出。
稍等片刻,即可看到一个链接。
按住Ctrl 并单击进行访问,就能进到F5的界面里面了。
点击上传参考音频,即我们想要克隆的人的音频,这里我用了付航喜剧之王里的一段12秒的音频。音频不是越长越好,一定得15秒以下才行。
然后在待生成文本里面填自己想要生成的文字内容,比如之前鲜虾包谬赞我文章的一段话。
最后选择F5-TTS模型,点击合成即可。
这样就可以得到鲜虾包以付航的口吻称赞我文章的passion了!!!
是不是巨简单,是不是有手就行。
但是跑明白了声音克隆的流程,我们还缺一段最重要的东西,就是,文本。
说实话,我自己写段子的水平可能连小学生都够呛,所以我果断选择求助了Claude老师。
我把付航在《喜剧之王》的视频转成文字稿,一股脑儿塞给了Claude。想着让它学着付航的风格写一段脱口秀试试。
然而。。。我roll了N次,Claude就是没法做到付航那个味儿。
想着可能长文本脱口秀不好写,换个风格用one-liner吧,写了一段Prompt。
给了特点、节奏、杨波曾经的case。
又试了好几次。
效果还是很难评。。。
说实话,连Claude都只能做到这种程度,我根本不想试其他的大模型的效果了,没有意义。
不过可能也是脱口秀这个形式确实复杂了一点。现在的大模型还是太直率了,写的内容坦率的讲都是生拉硬拽拼在一起,效果比僵尸都硬。
脱口秀这样文雅人的吐槽不太行,感觉还是得直接骂才有效果。
于是我又扒了篇知乎分析TES比赛的文章,写了一段比较不太能放出来给大家看的Prompt,让Claude给我整了一段。
这次火力直接拉满了。。。
还得是直接吐槽开骂啊。
然后我就直接把这篇稿子,拆分了一下,一小段一小段的,扔回到我们刚才的F5里。
就,出现了这样的效果。请大家欣赏,AI付航吐槽TES。
说实话,这个效果,有点过于直白过于狠了。。。
当然那个笑声是我后期加的,为了模仿一下脱口秀现场的效果。
F5出来的音频,音色跟付航真的一模一样,那个劲,也非常的像。还有些停顿、叹气,简直跟真人一样,虽然说表演和情绪跟付航自己比肯定是一个天一个地,但是AI能跑出这种程度,我已经很欣喜了。
就是有个小技巧大家在用的时候需要注意一下,F5支持中英文,但是不支持数字,这个点就非常的尴尬,所以你需要把数字处理一下变成中文。
比如,369,变成“三六九”。F5就能正常识别了。
大家有啥想整的活,都造起来吧。
最后,我想说。
有人说,脱口秀就是当代的“精神布洛芬”,我觉得挺贴切的。
我以前特别不喜欢看所谓的小品“喜剧”节目,尤其受不了一些创作者对剧作模式的生搬硬套。一定要上一层价值,一定要结尾包个饺子。
不来点生硬的价值,好像就不是“好喜剧”。
但这几年懂得都懂,大家的压力都大。谁希望一天忙前忙后到家,好不容易瘫在沙发上,想看个节目乐呵乐呵,还得警惕“人生的意义”突然来拷问。
累不累啊。。。看喜剧还是上成功学?
喜剧,不就是为了让人们开心吗。
所以我更欣赏付航这样的演员,也更喜欢脱口秀这样的形式。
TES虽然输得难看,但打得好笑啊。能给大家提供一个集中吐槽的机会,也不失为一种情绪价值。
其实我这次就是忍不住想整个活,博大家一乐。
比赛的结果输也好,赢也好,都是常事。反正我也不能替选手上,咱也没那个实力,那咱不如就吐槽吐槽,开心一下。
“如果高级动物必须高级。那我宁愿当猴。”
何必把自己绷得那么紧?
希望S14这次决赛的时候,看LPL,能像这次看付航一样,也像18年的IG一样,让我们喊出:
“我们是冠军”。
人生,还是得:
passion!!!
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克、稳稳、Qodicat
>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com
数字生命卡兹克
 阅读 赞  分享 ‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言