LibTV:你的龙虾,真的可以当导演了
原创 花叔 花叔 2026-03-18 10:02
互动数据
- 阅读:7964
- 点赞:104
- 转发:730
- 喜欢:50
- 留言:14
我给OpenClaw发了一句话:
我之前开发了一款叫「小猫补光灯」的app,主要价值是帮助女生在餐厅、飞机、酒吧等暗光环境下补光。请帮我收集下这个产品的相关信息,然后用LibTV skill做一个30秒左右的Apple风格宣传视频。
然后就看着它开始工作。
它先自己去找本地有没有LibTV Skill,有没有关于小猫补光灯的现成资料——找到了,把产品卖点抽出来。然后调用LibTV,先把剧本框架写好,然后生成角色参考图:正面、侧面各一张,用来锁定后续所有场景的角色一致性。参考图出来之后,逐个分镜生成关键帧画面,最后拼成25秒完整视频。
整个过程,我没有手动操作任何节点,没有打开任何界面,没有写任何一句prompt。Agent自己完成了:找资料 → 写剧本 → 生成角色图 → 出分镜 → 拼成片。
回头看LibTV的画布,能清楚地看到这条链路:剧本节点 → 角色图节点 → 分镜节点 → 视频片段节点 → 最终成片。
让我觉得比较惊喜的是LibTV主动传了我的产品首页界面图和logo图作为参考,而且,似乎它看着这些界面就天然知道产品该怎么操作了。最终的宣传视频效果如下👇
对了,在装了LibTV Skill之后,我的龙虾成了我的导演了。
这是他们的产品地址👇你大可以先关闭这篇文章,自己去亲自动手试试。
LibTV官网:https://www.liblib.tv/
LibTV Github仓库:https://github.com/libtv-labs/libtv-skills
这件事为什么现在才发生
往前推一年,这件事还不可能发生,或者说,没法做好。
AI视频生成有一个明显的拐点,就在过去这半年多里悄悄过了。可灵从1.0到3.0,Sora 2出来,Veo 3.1出来,Seedance 2.0也发了,Wan系列也在快速迭代。这些模型在差不多同一段时间里集中爆发,把「AI视频」这件事的质量上限抬高了一大截。以前出来的东西「看起来像AI做的」,有一种特殊的平滑感和不自然的运动方式,一眼就能认出来。现在这条线模糊了很多。
记得就在Seedance模型的新版本出来那天,即梦的排队人数一度破万。上一次见到这种阵仗,我还是在排队退ofo押金。
那些排队的人,很多不是来玩的,是真的专业党来干活的。
最近刷到越来越多关于AI视频的消息了,比如有报道已经有导演在混合调用这几个视频模型加上图像模型,一个人做出了质量过得去的AI短剧,在平台上挣钱了。有人做了个粗略测算,一部30集的AI短剧,传统方式可能要几百万制作成本,现在一个懂工具的人,几万块能搞定。
更标志性的一个信号:贾樟柯和即梦合作,用AI做出了一部有明显导演质感的作品。这件事的意义不在于「AI能生成视频」,而在于一个有审美判断的导演,真的把AI工具当成了自己创作的一部分。原来只有大公司能玩的赛道,现在个人创作者也能进去了。
但那是懂工具的人。
专业导演身上有一样东西,任何工具都给不了你:他们知道怎么「调度」。知道一个场景该用哪个模型,什么时候换风格,角色在不同镜头里怎么保持一致,分镜节奏怎么排。这套思维方式,是从无数个项目里磨出来的。
你把Seedance 2.0给一个没有这种积累的人(比如我),很多时候,他打开输入框,发现自己不知道第一句话该写什么。
工具在加速进化,但工具和结果之间的那段距离,那段叫「导演思维」的东西,并没有因此消失。有时候工具越强,这段距离反而越明显,因为工具能做的事太多了,你反而不知道该让它做什么。
现有工具,有两个极端
LibTV的团队在做这个产品之前,观察到一个问题:现在的AI创作工具,要么太简单,要么太复杂。
太简单的一类,是聊天式的Agent工具。你给它发指令,它帮你生成东西,能聊,但做不出复杂作品。一旦你想精细调整某个镜头,它就跟不上了。
太复杂的一类,是纯节点式工作流。搭起来成本很高,需要对工具本身有深入理解,普通创作者上手门槛陡。更麻烦的是,创作过程中的小修改、小调整,没有顺手的工具,只能不断导出到别的软件二次编辑,流程被切得很碎。
LibTV想填的是这中间的空白:比聊天工具更专业,比纯节点工作流更好上手。
一个给导演设计的工作台
LibTV(liblib.tv)的界面是一块无限画布。
进去之后是一片黑色的空白,中间有一行小字:「双击画布,自由生成节点」。底部有四个快速入口:故事脚本生成、角色三视图、首帧图生视频、音频生视频。你从哪个环节开始都行。
不是在一个生成框里点来点去,而是在画布上把整个项目铺开。剧本是一个节点,角色是一个节点,分镜是一个节点,图像生成、视频生成、音频都是节点,节点之间连线,组成一条完整的创作工作流。这种设计让你的创作过程是「可见的」,哪一步出了问题,单独调那个节点就行,不用从头来。
功能上,有几个让我觉得确实在认真考虑「导演视角」的设计。
我最喜欢的是两个能力:
1、我可以丢给他一套我想模仿的广告片,点一下「解析」,即可获得颗粒度到0.1秒级别的极致清晰的脚本信息。
2、你也可以单纯的有个粗浅的脑洞,然后让LibTV帮你生成包含角色描述、景别、角色动作,甚至情绪的专业脚本
学不完,根本学不完…
以往这样的脚本应该怎么写的认知,你可能需要在电影学院学个4年时间,或者在前两年,你大概需要花个x99买AI课程,而现在Libtv的这套工作流以及封装的Skill相当于完全把导演的职业技能开源了。
目前LibTV上线了20多个专业视频创作功能,其中不少是行业首发。
更多功能我就不介绍了,讲道理,我也不太懂,我希望我的Claude Code和OpenClaw作为成熟的Agent,该自己去学这些东西,而不是完全依赖我了。
以及,如果你不确定自己的导演思维从哪里开始练,LibTV首页其实是一个不错的起点。那里有一个「TV Show」社区,按商业广告、专业影视、动漫游戏等分类展示了大量创作者的真实作品,每一条都是可以点开看、可以反推工作流的案例。光刷首页,就能大概建立起「什么样的画面用什么方式做出来」的感觉。
模型方面,图像有Seedream 5.0、Qwen image等,视频有可灵3.0、Wan 2.6等,文本接了三个顶级大模型,全在一块画布里,不用来回切平台。
关于价格
做AI视频的人都懂「抽卡」这件事。
同样一段prompt,生成十次可能只有一两条让你满意。一个认真的项目,核心镜头可能要反复抽几十次。随机性是AI生成的底层逻辑,没办法消除,只能用更多次数去筛。
问题在于,次数是有成本的。
LibTV目前会员价格比竞品低76%,模型积分定价比竞品低92%。
原来只敢试5次的,现在可以试50次。你可以理解为这个成本降低背后带来的本质是让你的创作方式改变。你开始敢做实验,敢在某个细节上多磨几轮,因为「反正不贵」。
B、C之后,A来了
回到开头那件事。
龙虾能当导演,不是因为龙虾特别聪明,是因为LibTV从第一天起就同时打开了两扇门。
一扇是人用的GUI,也就是那块画布,人在上面操作、排分镜、生成视频。另一扇是Agent用的Skill接口,OpenClaw、Coze、Claude Code这类AI Agent,通过这个接口理解任务、调用模型、自动完成创作。两扇门,Day 1同时开着,没有先后顺序。
这背后有一个判断,我觉得是对的。
过去二十年,软件产品的成长路径几乎都是同一条:先做好用的界面把用户圈进来,做大了再开放API给开发者。GUI是正门,API是后门,有先后顺序。Figma这样做,Notion这样做,Salesforce也这样做。API从来都是「长大以后再说的事」。
但Agent的出现打破了这个顺序。
这要从AI能力的一个变化说起。过去几年,Agent经历了几次跃迁:最开始只会对话;然后学会调用工具,开始能搜索、写代码、发消息;现在到了第三阶段,能够理解复杂任务,自主编排工作流,在项目级别的上下文里持续迭代。
这第三次跃迁是关键的。它让Agent从「工具的使用者」变成了「工作的执行者」。当软件的用户不再只是人类,API从第一天起就和GUI同等重要。
Sam Altman在2024年底说过,2025年会是「Agent真正开始接管工作的一年」。a16z在研究报告里写,AI Agent正在成为软件消费的第三条主要路径,和人类用户、企业系统并列。到了2026年,看来这一预期终于要成真了。
B2C、B2B大家都熟悉了。B2A(to Agent)正在成为一个真实的商业逻辑。ABC,算是补齐了。
两扇门,对应两种工作方式
如果你是认真做内容的创作者,想精细控制每个镜头、每个色调、每个节奏点,GUI那扇门是给你的。无限画布,所有工具,你来导,AI来执行。
如果你有重复性的内容生产需求,比如品牌方每周要的几十条素材、系列栏目的每期视频,Agent那扇门是给你的。装一个Skill,给一句话,批量出来,不需要人盯着。
显然,这也不是OpenClaw专属的能力。我用Claude Code也测试过,甚至还更稳:
用LibTV Skill帮我做一个类似《辛普森》风格的,讽刺人类在过度利用ai后,什么都不会,甚至吃饭、走路都要询问ai自己该怎么做的讽刺性视频。
工作方式和OpenClaw一样:自己写分镜剧本,调用LibTV生成角色参考图,逐个场景出关键帧,最后拼成完整视频。本质上,只要是能调用Skill的Agent,Claude Code、AutoClaw、KimiClaw,或者Cursor、Trae这类AI编程工具,都可以接LibTV这扇门。是哪个Agent不重要,重要的是那扇门开着。
60秒,包含了6个不同的场景的画面,这个20分钟左右生成的动画短片的人物一致性和风格统一性还真挺让我惊讶的。
当然了,我觉得视频创作和写文章、做产品都类似:AI能为你提供超乎想象的大量辅助,但是好作品还是需要人的品味和判断。
创意决策,审美筛选,那个「不对,再来一条」的直觉,这些暂时没有东西能替代。但把创意执行出来这件事,可以越来越多地交出去。导演还是导演,只是他的剧组里,现在多了一只会拍戏的龙虾。
最好的状态大概是这样的:你负责审美,它负责执行。你往前走,龙虾跟上来,一起把东西做出来。
目前LibTV还在内测,不是完整体,真正的大功能还没全放出来。但那扇门已经开着了,先装上Skill的人,会比别人早一段时间把龙虾练出来。
另外有个消息顺手说一下:现在订阅的用户,会赠送最多150条可灵O3+150条可灵3.0,共300条最高等级视频免费用。抽卡这件事,先把这300条花完再说。
感兴趣可以去他们的官网或者Github仓库看看👇
LibTV官网:https://www.liblib.tv/
哦对,我大概是玩上瘾了,我还做了两个分别是新闻风格和《Rick & Morty》风格的宣传我的《OpenClaw橙皮书📙》的广告视频。我感觉Building in public这件事,又有不同的可能性了。