Agnes接入Banana:日活5万+的多Agent工作流,中文不再出戏
原创 花叔 花叔 2025-09-12 18:39
互动数据
- 阅读:1917
- 点赞:26
- 转发:174
- 喜欢:8
- 留言:12
先抛个结论:Agnes 可能是我见过最像“AI虚拟设计团队”的产品。
它最近接入了谷歌的 Nano Banana 模型,但玩出来的效果,却完全不是大家在小红书或朋友圈里常见的那种“玩票式生图”。
我这段时间没少写谷歌Nano Banana模型相关的内容,你大概也在很多公众号/小红书看过Nano Banana的各类玩法。一句话生成和名人的合作,一句话把自己变成手办模型,修改图片上的细节,融合多图的元素也在电商等行业有诸多应用场景。
可真到落地,两个老问题就会冒头——中文元素一加就破功,图做完还得在一堆工具之间复制粘贴。Agnes 这次把两件事同时补齐:接入Nano Banana 的同时,用“多模型混合 + Deep Design 多 Agent 评审迭代”的系统工程,把中文生成和工作闭环都搞成了默认选项。
从核心体验来说,Agnes 在9月1日的更新中就接入了 Banana,并做了三层增强。
第一层是智能分流:当你的画面需要中文标题、包装文案、路牌、UI 中文标签等,系统会自动并行调用更擅长中文的模型参与生成,再把多个候选交给评审机制。
第二层是 Deep Design 的“找茬—改进—优选”:多个 Agent 从构图、风格一致性、文本可读性、与任务目标的贴合度逐项审视,不合格就把意见翻译成下一轮的绘图指令,直到达到阈值或者你拍板。
第三层是工作闭环:图像不是终点,你可以一键把它送进视频模块做 9:16 或 16:9 的开场与转场,也能把研究结果与设计稿直接装订成可编辑的 AI Slides;网页和移动端的上下文与记忆层实时同步,电脑上起的活,地铁里也能接着干。
实测Agnes多agent设计工作流
我用个实际的生成城市3D卡通图的案例让大家看看是怎么回事。
我提供了一个极其简单,且有些模糊的要求:
帮我分别生成世界前5大城市的三维卡通立体图,图上要有对应城市的中文名
让我们看看Agnes是如何工作的,首先它会拆解任务,规划出它需要完成的输出任务。在这一步,你可以选择是否开启「Deep Design」,再让Agnes继续。
强烈建议开启!!!
虽然可能会消耗更多的图片生成点数,但我觉得这是Agnes相比其他设计工具最大的特点之一,在「Deep Design」模式下,Agnes会启动设计评审的机制,对生成的图片效果进行专业审核,再判断是否需要重新生成,以及如何优化。
接着看实际执行,它先调用Plan Schedule工具规划了要帮我完成设计的完整步骤。包括请设计导师提供关于卡通立体图的整体设计风格、颜色系统、字体等方面的专业指导。再让视觉生成器将根据设计指导,分五步生成每座城市(东京、德里、上海、圣保罗、墨西哥城)的卡通立体图,并确保图上包含清晰的中文城市名。
设计指导涵盖的内容包括整体设计风格、颜色系统、字体选择、地标元素、三维表现形式、中文名标注规范等。
接下来它又调用Visual Principles工具,为我的需求规划了非常详尽的设计规范,包括核心风格(Core Style)、核心概念(Core Concept)、情绪氛围(Mood/Flow)、具体的颜色规范(Color Palette)、字体系统(Typography System)、布局(Layout)、核心视觉元素(Key Visual Elements)等,非常详尽且丰富。这完全就是给我的任务整了个设计团队,做了全套的VI设计。
我自己来的话,别说不知道每个模块怎么写,甚至该写哪些东西都是懵的。
在设计规范定义之后,Agnes再次调用Prompt Enhancing工具,为每张图片生成了非常详尽的提示词。
比如,东京的生图提示词是这样的:
A vibrant and imaginative 3D cartoon立体ism illustration of Tokyo.
也就是说,你完全不需要自己薅尽头发硬想提示词,也不需要到处复制黏贴网上大神的提示词,再让他们躺在你的收藏夹里落灰了。
你只需要自己语言表达清楚需求,Agnes为你提供的「虚拟设计团队」里自有专家帮你设计完整、专业的提示词,而且这些提示词不是为了炫技,不是为了复杂而复杂,而是真正在结合设计目标的情况下所生成的。
所以,接下来,我们再看看这一套流程下,生成的效果是怎么样的。
先看上海和东京的两个案例,可以看出因为有前置的设计规范的加持,两个图片的设计风格维持得相当一致,且中文字体的表现非常稳定出色。
但是,大家,也知道,AI总有抽卡的情况,一开始生成的德里和圣保罗这两个城市的效果就没那么理想了,主要是文字出现了错乱,风格也不太准确。
但是,接下来的环节,让我相当惊喜。
在启动「Deep Design」的模式下,Agnes会在生图后引入「找茬评审」的角色,对生成的图片质量进行打分,并且,这个评审还真是毫不留情面,分别打出过55、78、57、60的分数,在经过多轮迭代之后
而且这个评分还真不是张口就好,我觉得比现在某些综艺节目的评审强多了,分数维度拆分清晰,包括对Prompt指令的遵从性,图片的细节丰富程度,构图等等,有理有据👇
在经过多轮优化后,终于得到了两个90分以上的结果👇
最好,简要总结下,Agnes 之行的特点就是先把任务拆成角色与阶段,再把每一步产物显式化:先有设计指导,再落地视觉原则,再生成面向机器可执行的提示词,最后进入生成—找茬—再生成—优选的闭环。你给的是目标,它给你配齐「虚拟设计团队」。
如果你好奇这件事一定要Agent做吗?直接使用nano banana不行吗?我们可以看下在同等提示词下,Nano Banana的产出效果👇
呃…这确实命中nano banana的能力禁区了。
而回到Agnes的话,你让它去做你直接用Nano Banana可以完成得很好的任务,则也是毫无压力的,比如生成任务手办照片
比如,和名人的合影
从图片到视频、PPT
很多时候,AI生成的图片并不是我们工作中需要的最终产物。
也许,我们要做个宣传片,需要在此基础上再做个视频。
也许,我们在完成一次汇报,我们需要拿图片作为PPT的素材。
在Agnes中,你可以让这一套工作流程完成丝滑地连接起来,不需要在不同的软件之间复制黏贴,牺牲效率,你只需要轻轻要求一句:请参考这张图,帮我生成动态视频。
你就能得到下面的视频。
为什么Agnes会不一样?
写到这里,我觉得很多人心里可能有个疑问:Agnes到底是谁?为什么它能把大家都在玩的 Nano Banana,做成完全不同的体验?
背后绕不开创始人 Bruce 的故事。他从中国走出去,先在新加坡莱佛士书院、再到 UC Berkeley 数学与计算机双学位,师从图灵奖得主,毕业后在微软和 LinkedIn 做核心项目。26 岁起开始连续创业,还打造过千万级下载的应用产品。现在,他是一名新加坡国立大学的博士生,研究方向正是 AI 多 Agent 协作。
也就是说Agnes今天的设计,完全不是拍脑袋想出来的,而是直接承接了他的学术研究成果。比如《ADR-Driven Development of a Multi-Agent Workspace》这篇论文,就明确提出了“多 Agent 分工协作+共享记忆层”的设计范式;而另一篇《CodeAgent》研究的 token 效率优化,已经被应用在下一代系统里。也就是说,Agnes背后的“虚拟设计团队”,不是简单的产品包装,而是有方法论和实验验证支撑的。
团队本身也值得一提。它是新加坡国立大学孵化出来的科研型团队,核心成员来自 NUS、MIT、NTU、UCB 等学校。既有学术上的厚度,也有硅谷大厂的实战经验。你会发现,这样的背景下,做出的产品天然会带点“学术味”——更关注流程、架构和系统性,而不是只追一时的效果。
这也是我很好奇的地方:很多 Agent 产品说到底还是聊天机器人加点工具接口,但 Agnes 却在尝试做一个完整的“工作空间”,让 AI 真正像团队一样运作。这种野心和出发点,本身就和别人不一样。
用户能拿到什么?
说回到使用者能感受到的部分。Agnes 目前的日活已经突破 五万,说明它确实找到了市场切口。对国内用户来说,它有两个很现实的好处:
第一,零门槛体验 Banana。在 Agnes 里,不需要翻梯,也不需要配置复杂环境,就能直接玩 Nano Banana,生成的图片无水印。免费用户每月还能拿到 80 次生图额度。对于那些原本只能在 小红书 或 公众号 上看别人玩 Nano Banana 的人,现在终于能自己动手试。
第二,不止是 Banana。你会发现它其实是一个完整的工作流平台:图片生成之后,可以一键衔接到视频,再到 PPT。再加上 Research、AI Slides、Deep Research 等功能,等于把你常用的几个 AI 工具全都收拢在一个窗口里,电脑上做的事,手机上还能接着改。对个人来说更高效,对团队来说也更方便协作。
写在最后
所以,如果说 Nano Banana 展现了模型能力的炫技时刻,那 Agnes 就是把这种炫技变成了日常能用的工作流。它背后是一群学术和工程背景都极强的人在认真打磨,这也是为什么我会对这个产品格外好奇。
很多人可能还不了解 Agnes,但我觉得,它很可能代表了一类新的方向:不是再造一个模型,而是重新发明一个“用模型的方式”。如果你也想体验一下这个差别,不妨去试试。
他们的官网:https://agnes.life/