GPT-4o的多模态生图,让整个设计圈都开始emo了。 * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }

GPT-4o的多模态生图,让整个设计圈都开始emo了。

原创 数字生命卡兹克 数字生命卡兹克 2025-03-28 09:02 海南

原文地址: https://mp.weixin.qq.com/s/wbrIxyJIrf_c4emK6mdnwg

GPT4o的多模态生图前天上线之后。

经过两天的发酵,含金量还在不断提升。

在我的群里,已经能看到越来越多的,进入到实际生产环节的例子。

比如@银海的直接做商品图的翻译和合成,这是原来的算法,很难做的效果,但是现在,有手就行。

非常复杂的电商流程,一张原始图,换产品换脸换衣服。

比如@歸藏的直接把UI图放样机里面的例子,如果做过UI或者产品设计的朋友肯定都知道,以前我们在做做展示,或者做汇报的时候,经常做样机做的挺痛苦的。

比如给他头像,画的两套表情包,是可以直接上架到微信表情商店的那种。

来自设计大佬@付遥,用GPT-4o来直接做之前非常流行的3D品牌海报。

比如我一个很喜欢的小红书AI博主@Rico有三猫,用GPT-4o给她做小红书封面。

也用GPT-4o直接做商品图翻译出海。

群友@默月佥在用GPT-4o出蜜蜂的解剖科普图。

一个很专业的公众号AI博主@阿真lrene,不仅用GPT-4o生成复杂的漫画,还能抠图,一键直出透明通道的PNG图。

干死各种抠图软件的不是更牛逼的抠图软件,而是大模型。。。

还有朋友@不知名网友虎子哥,用GPT-4o给他自己家的房子装修。。。

还有一些我确实不知道源头的但是被传播的蛮广的例子(如有作者,欢迎评论区认领)。

给几个家具做一个展示图,这个场景在电商领域无敌。

之前我写可灵的AI模特的时候,很多人问,能不能让模特带首饰?现在,可以了。

还用它,直接P图,消除人物。

老照片一键修复+上色。

甚至,还可以模仿字体做自体设计。

在GPT-4o的冲击下,N多的设计师和创业者,都有点emo了。

比如就有大佬在X上感叹道:

朋友圈里还看到了一张图,是glif的老板,在X上发的。

纪念ComfyUI,纪念一切的AI图像工作流。

OpenAI的一次更新,又屠杀了一堆公司。

又一次深刻的阐明了那句《三体》中的经典台词:

我消灭你,与你无关。

GPT-4o的冲击当然是有,但是,他的上限在哪?能做到什么地步?真的能彻底替代ComfyUI的AI图像工作流吗?

我想弄清楚这个答案。

首先我觉得我还是要跟大家非常简单的用一两句话解释一下ComfyUI,让大家知道这玩意是个啥,我们才好继续往下聊。

ComfyUI是一个非常专业的工作流工具,不局限于AI绘图,AI视频啥的也都可以往里面接。他的界面大概是这样的,很像电路板。

这个就是在Liblib上搭的ComfyUI工作流。

它是以节点方式,把各个工具、各个模型给串起来,形成一整套的工作流,比如一张图进去,经过各种节点和插件,输出一个完全风格不同的AI视频,这都是OK的。

坦率的讲,我不是ComfyUI的专家的,做过的工作流也不多,我觉得在这个领域,我并没有那么强的发言权,所以。

我去请教了一下我的1个好朋友,AI绘图大神@炼丹师忠忠。

我想听听,他的看法。

首先是,GPT-4o对电商设计的冲击到底有多大?

我跟忠忠聊了很久。

最后得到的结论,跟我自己在设计行业里感受到的水温差不多。

对于普通水平的电商设计师,肯定是有打击的,他们原有的技能水平也就只能产出跟gpt4o差不多的图,相对来说意义不大了。

上游的运营专员可以自己操作工具来生产一样质量的图。跟被冲击的插画师类似,可能会变为帮忙修补gpt4o产出的图的bug,还有叠加原图部分细节上去加强细节还原(类似于高低频修复流程)。

生产成本降低后,需求量会变大,原本用不起各种华丽背景图包装的商家,现在也用的起了。

从效果上极简操作就能生图的工具有美图设计室等一堆工具,GPT4o只是在某些效果方面更进一步而已,对于专业级的实际商业生产的影响可能没有那么大。

而从视觉设计角度,对现有的整个开源生态,反而是利好作用。

忠忠举了自己设计的公司IP的例子。

现在,可以一句话把IP的3D模型,直出到品牌海报上,不需要走以前的3D建模+渲染了,大大节省了时间。

同时,更有趣的一点是,GPT-4o可以根据一张IP草图,来生成这个IP的各角度视图。

而这些图,会进一步推动flux等开源模型的微调版本的效果。

你可能会问,都有GPT-4o了,为什么还要去微调flux,在ComfyUI搭工作流用呢?这不是脱裤子放屁多此一举呢?

其实有两个原因。

数据隐私性和精准性。

数据隐私很好解释,就是GPT-4o是一个闭源的模型,后面最多最多也就是开放一个API,让大家接到ComfyUI里面去用,但是,就OpenAI这个尿性,我们给过去的东西,大概率就成他后续的训练素材了。

举个例子,《流浪地球3》2027年上映,要是现在美术组把核心概念图或者设定图直接灌给GPT-4o做一些处理,到时候,《流浪地球3》电影还没上映,设定图你可以直接在GPT-5o里面让它画出来,这特么就炸了。。。

所以,数据隐私性至关重要,在真正的生产环境里,特别是一些大厂里,必须只能用本地的ComfyUI搭,真正的输出,必须是本地环境,用开源的模型。

所以,这个时候,我们就可以用一些不敏感的信息,扔给GPT-4o,来辅助生成数据集,反过来微调自己的flux模型,这个点,真的很有用。

精准性其实也很简单,我们回过头来看忠忠用GPT-4o输出的自己家IP的海报。

先不说其他的细节了,这几处,你是能发现一些明显的BUG的。

这其实在生产环境里,这种BUG是品牌方觉得不可能接受的,就想你给一个手机产品做广告,你把人手机弄变形了,你跟人说不行AI出得就是这样的,你看对面会不会把你挂在电风扇上转着打。

而这个时候,用Flux专门微调的Lora,是可以完美的解决这种精准性和一致性的问题的。

这其实就是普通设计场景和专业设计场景的区别。

GPT-4o当然可以替代大部分的普通工作流,会让ComfyUI里一大批的工作流失去价值,但是这就不代表,ComfyUI失去价值了。

很简单的一点是,在专业的设计工作里,纯对话式的简单界面满足不了复杂专业的需求的。

就像你问一个专业设计师,为什么设计是用PS做设计,而不用美图秀秀来做设计,对方只会把你当傻子。

在真正的专业的AI设计工作里,可控性,很多时候非常的重要。

需要精确的规定重绘区域,需要精确的调节风格效果,出图尺寸比例等,所以在专业生产中需要精确调节的细节,不能指望OpenAI全做成功能。

还有前后处理流程,比如说前置的裁剪,抠图,语义识别,后置的比如对图片的放大,贴回原图细节(高低频修复),再接入其他工作流继续处理等。

自动化一键完成的效率要比多轮对话高很多。

包括在一些精准度要求高的产品和场景上,GPT-4o目前还达不到专业级的水准。

看个例子。

比如我们要把问界M9这款车,换到另一个场景里。车这种产品,跟笔、戒指、香水等等要求的精细度,完全不一样。

这是GPT-4o出的图。

而如果我们用大佬的牛逼工作流呢?

生成出来的效果在整体比例和质感上,是更好的。

对比应该非常直观了。

这里我要给自己叠个甲,我并不是在这里鼓吹,GPT-4o不行,ComfyUI的效果可以吊打GPT-4o。

如果是这样的话,我也不会连更两篇,来给大家看一看,GPT-4o,有多酷,有多强。

我想说的是,GPT-4o,跟当年的SD、Midjorney、Runway、可灵等等AI工具是一样的。

会无差别替代所有这个行业里面的初级执行职位。

屠杀所有曾经在工程层面对大模型进行的一些优化。

然后,一点一点侵蚀更上层的建筑。

它更像是一层层汹涌上涨的潮水,将整个AI图像领域原有的边界打得支离破碎。

都说做AI产品,要看到大模型的边界,在边界之外的安全地带做。

但是现在,你根本不知道边界在何方。

那些看似高耸的技术壁垒与工作流程,如果只是基于简单组装或者初级执行的逻辑,正在被GPT-4o以近乎暴力的方式消解。

绝大多数机械式的制作工作,一旦被强大的多模态理解与生成替代,就会像那些轰然倒塌的围墙一样,被历史的风尘轻易覆盖。

有没有一种第一次工业革命时候,机器代替手工劳动的即视感?

历史总是在不断的重复。

可一如上文所言,这绝不代表ComfyUI之流就会被完全淘汰。 

在工业级、专业级的深度工作流里,人们对数据安全、设计精度、可控度的需求不可能凭空消失。

那种图像与视频的多次处理、分层输出、版本管理、脚本化批量运行、自动化节点衔接,只要是大型企业或核心团队,都会很在意。

GPT-4o会在C端和中小B端市场里摧枯拉朽,取代了大量低端或者重复性工作。

而ComfyUI、Flux、ControlNet等开源生态则在更专业的领域继续进化,利用它们精细、可控、可离线部署的特性,为高端客户或机密项目提供服务。

这气势就像云端办公与本地办公的关系一样,前者无限便捷,后者安全可控。

也如同家用轿车与顶级跑车的分别,各自目标用户并不冲突。

GPT-4o也一定会不断进化,去扩大自己的边界蚕食更多的场景。

开源生态也会有各种可以复刻效果的模型、产品出来,从而进行私有化。

没什么能够阻止浪潮向前。

要么成为浪潮的追随者,要么成为浪潮的推手。

这二者,都肯定比做一块沉在海底的礁石,要精彩得多。

你说是吗。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克

>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

数字生命卡兹克

![](data:image/svg+xml,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E%3C!— Icon from Lucide by Lucide Contributors - https://github.com/lucide-icons/lucide/blob/main/LICENSE —%3E%3Cg fill=‘none’ stroke=‘%23888888’ stroke-linecap=‘round’ stroke-linejoin=‘round’ stroke-width=‘2’%3E%3Cpath d=‘M2.062 12.348a1 1 0 0 1 0-.696a10.75 10.75 0 0 1 19.876 0a1 1 0 0 1 0 .696a10.75 10.75 0 0 1-19.876 0’/%3E%3Ccircle cx=‘12’ cy=‘12’ r=‘3’/%3E%3C/g%3E%3C/svg%3E) 阅读![](data:image/svg+xml,%3Csvg width=‘25’ height=‘24’ viewBox=‘0 0 25 24’ fill=‘none’ xmlns=‘http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=‘evenodd’ clip-rule=‘evenodd’ d=‘M16.154 6.797l-.177 2.758h4.009c1.346 0 2.359 1.385 2.155 2.763l-.026.148-1.429 6.743c-.212.993-1.02 1.713-1.977 1.783l-.152.006-13.707-.006c-.553 0-1-.448-1-1v-8.58a1 1 0 0 1 1-1h2.44l1.263-.03.417-.018.168-.015.028-.005c1.355-.315 2.39-2.406 2.58-4.276l.01-.16.022-.572.022-.276c.074-.707.3-1.54 1.08-1.883 2.054-.9 3.387 1.835 3.274 3.62zm-2.791-2.52c-.16.07-.282.294-.345.713l-.022.167-.019.224-.023.604-.014.204c-.253 2.486-1.615 4.885-3.502 5.324l-.097.018-.204.023-.181.012-.256.01v8.218l9.813.004.11-.003c.381-.028.72-.304.855-.709l.034-.125 1.422-6.708.02-.11c.099-.668-.354-1.308-.87-1.381l-.098-.007h-5.289l.26-4.033c.09-1.449-.864-2.766-1.594-2.446zM7.5 11.606l-.21.005-2.241-.001v8.181l2.45.001v-8.186z’ fill=‘%23000’/%3E%3C/svg%3E) 赞 ![](data:image/svg+xml;charset=utf8,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E %3Cg fill=‘none’ fill-rule=‘evenodd’%3E %3Cpath d=‘M0 0h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M13.707 3.288l7.171 7.103a1 1 0 0 1 .09 1.32l-.09.1-7.17 7.104a1 1 0 0 1-1.705-.71v-3.283c-2.338.188-5.752 1.57-7.527 5.9-.295.72-1.02.713-1.177-.22-1.246-7.38 2.952-12.387 8.704-13.294v-3.31a1 1 0 0 1 1.704-.71zm-.504 5.046l-1.013.16c-4.825.76-7.976 4.52-7.907 9.759l.007.287c1.594-2.613 4.268-4.45 7.332-4.787l1.581-.132v4.103l6.688-6.623-6.688-6.623v3.856z’/%3E %3C/g%3E%3C/svg%3E) 分享 ![](data:image/svg+xml;charset=utf8,%3Csvg xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’ width=‘24’ height=‘24’ viewBox=‘0 0 24 24’%3E %3Cdefs%3E %3Cpath id=‘a62bde5b-af55-42c8-87f2-e10e8a48baa0-a’ d=‘M0 0h24v24H0z’/%3E %3C/defs%3E %3Cg fill=‘none’ fill-rule=‘evenodd’%3E %3Cmask id=‘a62bde5b-af55-42c8-87f2-e10e8a48baa0-b’ fill=‘%23fff’%3E %3Cuse xlink:href=‘%23a62bde5b-af55-42c8-87f2-e10e8a48baa0-a’/%3E %3C/mask%3E %3Cg mask=‘url(%23a62bde5b-af55-42c8-87f2-e10e8a48baa0-b)‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ![](data:image/svg+xml,%3Csvg width=‘25’ height=‘24’ viewBox=‘0 0 25 24’ fill=‘none’ xmlns=‘http://www.w3.org/2000/svg’%3E%3Cpath d=‘M22.242 7a2.5 2.5 0 0 0-2.5-2.5h-14a2.5 2.5 0 0 0-2.5 2.5v8.5a2.5 2.5 0 0 0 2.5 2.5h2.5v1.59a1 1 0 0 0 1.707.7l1-1a.569.569 0 0 0 .034-.03l1.273-1.273a.6.6 0 0 0-.8-.892v-.006L9.441 19.1l.001-2.3h-3.7l-.133-.007A1.3 1.3 0 0 1 4.442 15.5V7l.007-.133A1.3 1.3 0 0 1 5.742 5.7h14l.133.007A1.3 1.3 0 0 1 21.042 7v4.887a.6.6 0 1 0 1.2 0V7z’ fill=‘%23000’ fill-opacity=’.9’/%3E%3Crect x=‘14.625’ y=‘16.686’ width=‘7’ height=‘1.2’ rx=’.6’ fill=‘%23000’ fill-opacity=’.9’/%3E%3Crect x=‘18.725’ y=‘13.786’ width=‘7’ height=‘1.2’ rx=’.6’ transform=‘rotate(90 18.725 13.786)’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言