首先是由称得上 SD 原班人马的黑森林实验室推出的 FLUX.1。黑森林实验室由 Stable Diffusion 的核心开发者 Robin Rombach 领衔创立,团队成员基本上都是 Stable Diffusion3的作者,其中三名元老级成员还是 Stable Diffusion 论文的作者,FLUX.1也是在 Stable Diffusion3架构上做的改进,不管从哪个角度,FLUX.1都称得上是 Stable Diffusion3的精神续作,FLUX.1,也包括3个变种模型,FLUX.1[pro]、FLUX.1[dev]、FLUX.1[schnell],并将 FLUX.1[schnell]完全开源,也是团队开源理念的一种印证。
好巧不巧,上个月,一家美国创企 Fal.ai 也发布了自研的开源生图模型 Auraflow,并在上线模型的同时,发布了一篇博客,阐述的观点主要是,当前阶段对开源模型的开发好像陷入了停滞,而 Auraflow 将继续践行开源社区的理念,这口气俨然是将 Auraflow 当作了开源模型的希望之星,对标的也是老牌的开源模型明星 SD3。
SD3气还没喘匀,一下又来了两个对手。“除了 FLUX.1,包括国内字节、快手的生图模型近期陆续上线,我们平台用户在一个月内上传的微调模型数量超过了1000个,5倍于 C 站(Civitai,全球最大的生图模型社区)的速度。”从开发者的角度来看,SD 的挑战,倒成了他们眼中的机会。
看到相关信息,结合我们之前对 SD 的观察(参阅我们之前的选题《几乎所有创企都在用的 Stable Diffusion,真的可能要甩卖了》),SD 作为几乎所有 AI 生图开发者所采用的基座模型,却已经一度到达了要卖身的地步,这与其团队管理、更重要的是不太合理的商业模式设计有关,Stable Diffusion 都差点卖身,挑战者却来势汹汹。这不禁让人想问,底气何来?继 SD 出现问题之后,商业化模式能跑通吗?这一波模型“涌现”又会给开发者带来哪些机会呢?
我们先从文生图模型最根本的产品力上见见真章。
一、SD3面前,连Auraflow都“很能打”?
从市场的反馈来讲,FLUX.1这几天的刷屏,貌似已经在向行业宣告,“我很可以”。而 Auraflow,虽然相对小众,但在开发者社区里,也有一些人讨论。在结合开发者反馈的同时,我们还是决定自己先测量一波各家模型能力。但这波测量我们准备以表格呈现结果,不再多着笔墨,也方便大家查阅。
测试方法:
在与一些生图社区的创业者聊过之后,我们会发现,现在很多 AIGC 技术在用户侧那里,除了一些尝鲜人群,有很大一部分属于“专业人士”,而生图模型能否对应这些行业有不错表现,也是一些生图社区在采用基座模型时所考虑的。因而这次,我们选择了游戏、电商、艺术创意、摄影、广告几个行业对应的动漫风、奇幻风、印象派艺术风、写实场景、人像摄影和家居广告对新出的生图模型进行测评。参赛选手分别是 FLUX.1的三个版本:FLUX.1[pro]、FLUX.1[dev]、FLUX.1[schnell]、号称 SD3系列最新最先进的 SD3Medium 和 Fal.ai 自研的 Auraflow。(考虑到外国研发的模型对英文的响应度更高,而且笔者亲测 FLUX.1系列模型中文理解能力较差,测评使用英文 prompt,不过为了方便读者阅读,文中保留中文 prompt。)我们将测评的结果做成了表格,并将此次对比中优胜者标红了,可圈可点的亚军也以品红色(ps:稍微淡点)标注,方便大家对比。
动漫风
Prompt:An intense anime-style battle scene at dusk between two characters in a forest clearing. The first character, a young warrior with spiky hair and glowing blue eyes, wields a katana, poised to strike with lightning speed. The second character, a mysterious figure in a dark cloak, counters with a swirling aura of shadowy energy. Sparks fly as their weapons clash, illuminating their determined expressions. The background shows trees bending from the force of their attacks, with leaves swirling in the air. The atmosphere is tense and dramatic, with vibrant colors and dynamic motion capturing the energy of the fight.
中文Prompt:以动漫风格呈现黄昏时分两个角色在森林中战斗的场景。一位是年轻的战士,拥有刺猬般的头发和蓝色眼睛,手持武士刀,准备以闪电般的速度发动攻击。第二个角色是一个身披黑色斗篷的神秘人物,他以阴暗能量的漩涡光晕进行反击。当他们的武器碰撞时,火花四溅,照亮了他们坚定的表情。背景里树木因他们的战斗而弯曲,叶子在空中飞舞。气氛紧张且戏剧化,要求画面充满动感。
测评结果:
奇幻风
Prompt:In a mystical, otherworldly landscape, a towering ancient tree with glowing runes carved into its bark stands at the center of an enchanted forest. The tree’s massive roots twist and coil like serpents, merging with the earth in intricate patterns. Surrounding the tree are ethereal, floating islands covered in vibrant, luminescent flora. A majestic dragon with shimmering emerald scales winds gracefully around the tree, its wings extended as it prepares to take flight. Nearby, a powerful sorceress with flowing silver hair and a staff crackling with arcane energy is summoning a portal, its swirling vortex glowing with otherworldly light. The atmosphere is filled with magic and wonder, as beams of light pierce through the dense, mystical fog. The scene is richly detailed, capturing the grandeur and imagination of a fantasy world.
中文prompt:在一个神秘的异世界景观中,一棵高耸的古树矗立在一片被施了魔法的森林中央,树皮上刻有发光的符文。这棵树的巨大根系像蛇一样扭曲缠绕,与大地交织成复杂的图案。围绕着古树的是漂浮在空中的岛屿,上面覆盖着充满生机、发光的植物。一条威严的龙盘旋在古树周围,它那闪耀着翡翠光芒的鳞片在光线下熠熠生辉,翅膀展开,正准备腾空而起。在附近,一位拥有银色长发的强大女巫正用一根闪烁着魔术能量的法杖召唤一个传送门,漩涡状的门洞发出异界的光芒。画面中光束穿透浓密的雾气,展现出一个富有想象力的奇幻世界。
测评结果:
艺术风格:印象派
Prompt:A serene riverside landscape painted in the Impressionist style, with dappled sunlight filtering through the trees and reflecting off the water. The scene features a small, vibrant boat gently gliding on the river, its colors blending into the surrounding water. The sky is a soft gradient of pastel hues, with light, wispy clouds floating above. On the riverbank, a group of people in period clothing are enjoying a leisurely afternoon, their forms slightly blurred to capture the moment's movement and atmosphere. The brushstrokes are loose and expressive, with a focus on capturing the light and color rather than precise details, creating a dreamy, almost ethereal quality to the scene.
中文prompt:以印象派风格绘制一个宁静的河畔景色,斑驳的阳光透过树木洒在水面上。场景中有一艘色彩鲜艳的小船轻轻滑过河面。天空呈现出柔和的渐变色调,淡淡的云朵飘浮在上方。在河岸边,一群身穿复古服装的人正享受着悠闲的下午,他们的身形稍微模糊,需要捕捉到当下的动感和氛围。画面的笔触松散且富有表现力,侧重于捕捉光线和色彩而非精确的细节,创造出梦幻、几乎超现实的场景。
测评结果:
写实风
生图模型在图片中的文字理解和生成能力一直是大家关注的重点,我们将这个维度放在电商场景下着重考察了一下,这也关乎生图模型后续投入实际应用的能力。
Prompt:Generate a realistic image of a T-shirt designed for e-commerce product display. The T-shirt should feature the text logo ‘NOTREAL,’ with the logo naturally integrated into the fabric through embroidery or dyeing. The logo should be distributed across various parts of the T-shirt in a unique design. Additionally, the T-shirt should include a simple graphic design and showcase intricate embroidery details on the sleeves or other areas. The image should be highly detailed, capturing the texture of the fabric, the stitching of the embroidery, and the effect of the dyeing. The overall style should be realistic, suitable for an online store.
中文Prompt:生成一张用于电商产品展示的 T 恤图像,要求写实逼真,适合在线商店展示。T 恤应包含‘NOTREAL’文字标志,标志通过刺绣或染色的形式自然融入织物。此外,T 恤还应包含简单的图案设计,并在袖子或其他区域体现刺绣细节。图像需要捕捉到织物的质感、刺绣的缝线以及染色效果。
测评结果:
人像摄影
在写实人像中,模型对手部的生成效果是评价模型能力的关键维度,在人像摄影这个版块我们也重点测评了手部细节。
Prompt:Create a highly realistic photograph of two young girls closely huddled together in a begging pose. Both girls should be positioned with their palms facing upward, clearly showing the details of their hands. Ensure that the hands are prominently displayed and in sharp focus, with visible textures such as skin folds and minor imperfections. The girls should have expressive, pleading faces with a look of vulnerability and hope. They are in a dimly lit urban environment, with subtle hints of background elements like a city sidewalk or street. The lighting should highlight their facial expressions and hands, capturing a raw, emotional moment. The overall style should be a high-resolution, lifelike photograph.
中文prompt:生成一张高度写实的摄影作品,画面中有两个小女孩紧紧贴在一起,做出乞讨的姿势。两个女孩的双手掌心向上,清晰地展示手部细节,确保手部特征明显且聚焦清晰,展现皮肤的褶皱和细微的瑕疵。女孩们的面部表情充满乞求和希望,表现出脆弱的神情,捕捉一个真实而富有情感的瞬间。背景是一个微暗的城市环境,隐约能看见街道或人行道的元素。
测评结果:
家居设计
Prompt:Create a high-quality, realistic living room scene that highlights modern Scandinavian design. The room should feature a minimalist gray sofa with wooden legs, a round oak coffee table, and a large indoor plant next to the sofa. The walls should be painted in a soft, neutral tone, and a large abstract art piece should hang above the sofa. The room is well-lit with natural sunlight streaming through large, floor-to-ceiling windows, reflecting off a light wooden floor. The atmosphere should feel warm, inviting, and stylish, ideal for a home design advertisement.
中文prompt:创建一个高质量、逼真的客厅场景,突出现代斯堪的纳维亚设计风格。房间应包含一张带木腿的极简灰色沙发,一个圆形橡木咖啡桌,沙发旁边有一盆大型室内植物。墙壁色调柔和,沙发上方挂有一幅大型抽象艺术作品。房间光线充足,自然阳光通过落地窗照射进来,反射在浅色木地板上。整体氛围应温暖、宜人且时尚,适合用于家居设计广告。
测评结果:
通过上文对各个模型在不同风格表现的测评,相信读者朋友们心中也有了自己的判断,在笔者的主观感受中,FLUX.1系列模型起码在后几个偏现实画风的家居设计、人像摄影、电商图片的生图质量上是遥遥领先的,除了在印象派风格生成中风格不太还原外,在其余风格中 FLUX.1系列都得到了不同程度的标红。
而 Auraflow 也展现出了它在艺术方面的特长,在奇幻风、动漫风、艺术风格上都有不错的表现,但在写实风格上直接弃赛,能感受到 Auraflow 希望作为特长生在市场立足。相对而言,前几个月还在被寄予厚望的 SD3目前处于一个中不溜的尴尬位置。可以说是后生可畏。
二、谁也不能一直为爱发电,
新的开源基座模型能走多远?
FLUX.1推出之后,就有一些创业者在即刻上表示“开源生图模型有救了”。这是因为 SD 由于自身经营不善的原因,导致其无法再无限制地开源模型,为爱发电。而依附于 SD 做开发的一些创业者,也受到影响。而 FLUX.1和 Auraflow 等新开源模型的出现,将打破这一困境。
图片来源:即友post(侵删)
在之前的文章中我们梳理了 SD 的商业模式,(参见《几乎所有创企都在用的 Stable Diffusion,真的可能要甩卖了》)Stability AI 是靠 API、企业服务、AI 相关的咨询这3种模式来赚钱。它的商业化模式主要靠开源打出知名度,再靠 API 和企业定制产品在 B 端赚钱。但之前也分析到,完全开源 API 的商业模式有其固有缺陷,为满足离线部署的需求,SD 在设计时就比闭源模型参数更少,虽然更轻量,但这也让 SD 原模型的生图效果不如闭源模型,直接调用 API,无法满足多数厂商的业务落地需求。而在价格上,相对一些自行部署的云厂商和第三方 API,SD 的 API 也没有优势。
图片来源:白鲸出海2024年5月份根据公开信息整理
虽然后续 SD 也试图通过一系列商业化尝试自救,如限制自行部署模型商用、推出不同产品线的产品如 Stable artisan、Stable Audio、Stable Assistant,面向不同 C 端用户并收取订阅费,但目前还没有看到这些措施的效果。
图片:Stable Audio的付款页面
SD 在商业模式上存在缺陷,人事动荡风波不断,从 Stability.ai 出走的 BFL(黑森林实验室)是否能带着 FLUX.1走出一条属于自己的商业化道路,持续为生图赛道“贡献”基座模型,无疑将成为这场出道爆红后大家重点关注的问题。
FLUX.1商业化道路:左手开源,
右手闭源,还有一群快乐的小伙伴~
从FLUX.1的产品设计来看,BFL 共推出了三个版本,分别是 FLUX.1[pro]、FLUX.1[dev]和 FLUX.1[schnell],每个版本都有其特定的使用场景和优势。
FLUX.1[pro]:这是 FLUX.1系列中的旗舰版本,官方的口径是提供最先进的图像生成性能,包括顶级的提示词遵循、视觉质量、图像细节和输出多样性。FLUX.1[pro]是闭源模型,需要通过 API 访问,付费使用,专为商业用途设计,适用于需要顶级图像生成质量的商业应用,如高端广告、艺术创作等。
FLUX.1[dev]:这是一个开源的引导蒸馏模型,直接从 FLUX.1[pro]蒸馏而来。FLUX.1[dev]获得了类似的质量和提示词遵循能力,比同等大小的标准模型更高效。适用于学术研究,但不能用于商业用途,允许开发者探索和实验模型的能力。
FLUX.1[schnell]:这是系列中最轻量的版本,专为本地部署和个人使用量身定制。FLUX.1[schnell]可在 Apache2.0(一款开源程度高,商业应用友好的许可证)下公开获取,等同于完全开源。
从 FLUX.1系列的版本设计中我们可以看出,FLUX.1采用开源 闭源模式,用开源版本来建立生态和影响力,闭源版本卖 API。FLUX.1[dev] 和 FLUX.1[schnell]作为开源模型,有助于吸引开发者、学术研究者和个人爱好者,建立品牌忠诚度和技术影响力,不仅加速了技术的迭代和改进,还建立了一个活跃的用户和开发者社区,间接促进商业版本的销售。
FLUX.1[pro]作为闭源模型,专为商业用途设计,在上文不同风格的测评中得到的平均分高于4,硬实力能打是得到验证的,在网络上的其他测评中,FLUX.1[pro]也能与 MidJourney V6.0或 OpenAI DALL-E3等流行的闭源模型打个平手甚至超越,上来就相对清晰的商业模式,能在很大一定程度上避免后面遇到的商业化困境。
BFL 对商业模式的打算也能在其种子轮领投方 Andreessen Horowitz(a16z)官网上得到印证。投资方表示 BFL 在构建一个专注于开发者的可持续商业模式,他们计划提供付费的 API 访问和定制化的企业解决方案。
图源:Andreessen Horowitz(a16z)官网
图源:BFL官网
值得一提的是,FLUX.1还与模型托管平台 Replicate 和 Fal.ai 有合作,其中 Fal.ai 是本文的另一个文生图模型 Auraflow 的开发者。
图源:BFL官网
同时 FLUX.1还与 xAI 这周刚出的 Grok-2合作了。
图源:xAI 官网
图源:x.com
不难看出 BFL 的小伙伴还挺多,FLUX.1与 Replicate 和 Fal.ai 的合作可能采取 API 集成和扩展服务、模型托管和部署以及联合开发和优化等多种形式,BFL 或许能基于收入分成。与 Grok-2的合作上,xAI 的负责人在 X 上对 BFL 表示感谢,称 BFL 团队对 FLUX.1的推理 API 进行了扩展或升级,以支持 Grok-2的发布。虽然没有披露更多的商业合作信息,但联合开发新模型或提供定制化解决方案应该会给 BFL 带来一些收入。通过与这些平台的紧密合作,FLUX.1能够触达更广泛的开发者和企业用户,从而迅速扩大用户基础,建立生态系统。
Fal.ai:Auraflow 作为模型托管
平台商业化的必要一步
在做这次基座模型的选题之前,包括我们在内的很多人可能并不熟悉 Fal.ai,但在很多从业者眼里,这个网站也算是一个“宝藏工具”了。从定位上看,与 BFL 明明白白“We make models”不同,Fal.ai 的业务范围更广。当我们打开 Fal.ai 的官网可以看出这是一个集合大量三方模型、提供 API 调用服务的模型托管平台,而如今这个托管平台,却开始研发生图模型,听上去在情理之外。
“对于我们做生图社区或者说模型托管的平台来说,其发展的根本,可能就是基座模型,更多基座模型的创新和上线,会带来更多的用户与调用,繁荣生态。反之,哪一天如果基座模型不再更新,生图社区和模型托管平台的‘发展基础’也就没了。”AIGC 图片从业者思源告诉我们,而这也大概是 Fal.ai 做 Auraflow 的初衷。据悉,一些出海的生图社区也在考虑自研模型,来应对未来可能发生的变化。
而对于 Fal.ai 来说,商业模式也基本确立,而 Auraflow 更像是一个“引流款”,稳固生态。
Auraflow 模型本身的使用条款,和 FLUX.1[schnell]一样,采用了 Apache2.0开源许可证,也就是等同于完全开源,且可以商用。也就是说,Fal.ai 并不靠 Auraflow 赚钱,但这不是因为 Fal.ai 靠融资或其他,而是本身已经在赚钱。
据小道消息,Fal.ai 的团队人数只有个位数,但产品能力极强,主要体现在“快”上,不仅模型兼容非常快,而且通用最快推理引擎。
图源:Fal.ai官网
Fal.ai 官网在 Fal 的官网上重要的事说了不止三遍,平台特色主打一个“快”字。它的模型库头版已经火速换上了最近爆火的 FLUX.1,网页上也一再强调 Fal.ai 上的 demo 运行速度是无可匹敌的。
图片来源:Fal.ai官网
Fal 开发了自己的推理引擎,称 Fal 推理引擎 TM 是运行“Diffusion model”的最快方式。
所以依托自有引擎,Fal.ai 除了三方/自有 API 调用服务,用户还能在 Fal 的平台上部署和管理自己的私有 AI 模型,对模型进行参数调优并利用 GPU 资源进行高效推理。Fal 可以收取托管费用,尤其是对需要大量计算资源并有定制化需求的用户。
其实,我们在社区中已经能看到不少国内开发者在实用 Fal.ai 的服务来构建自己的 AI 应用。同时,随着自研模型的成本和技术门槛降低,Fal.ai 又拥有大量的数据,推出自研大模型也是性价比之选,而作为模型托管平台,为开发者提供计算资源和便捷的开发环境,开发者自己是否要去自行部署模型,也要在心里盘算一番,毕竟开源≠免费,部署、推理都是需要服务器的,较高的显存需求和偏低的 API 调用价格,能够让一部分没有能力蒸馏模型的开发者选择直接调用。
注:生图性能均分由上文测评中各模型得分算平均分得出
经过上文的梳理,可以看出 Auraflow 和 FLUX.1在生图质量上相比 SD3Medium 至少是不输的,Auraflow 在奇幻和印象派等艺术风格上有特长,在单项上出色,也拉高了一点平均分,而 FLUX.1系列整体的生图质量都是要优于 SD3Medium 的,除了 FLUX.1[pro]版本,几乎所有模型调用 API 生成单张图片所需成本都低于 SD3Medium。让两个后来者,形成了一定的市场竞争力。
而这种局面,开发者们显然喜闻乐见。
三、新模型你追我赶,大量网站已经上线
打开即刻,可以看到,大量的 AI“实验者们”已经上线了很多网站,借助 FLUX 的模型能力,做插画、做设计等等。而模型上线才不到20天,围绕 FLUX 生态的资源网站也已经上线。开发者们对于 FLUX 的追捧无疑展现了市场需求。
而除了本文提到的 Auraflow、FLUX.1和 SD3,其他模型也在不停推陈出新中,国内如腾讯混元文生图大模型,快手的 Kolors、豆包大模型的升级版文生图模型,国外还有 OpenAI 的 DALL-E3和谷歌的 Imagen3等等。
这一波模型你追我赶,“对我们来说意味着更多的创新可能性、更高的性能提升以及更广泛的应用场景”,做 AI 图像应用的杨杨认为。像文中提到的 FLUX.1就支持从0.1到2.0百万像素的多种分辨率和纵横比,为创作者提供了很高的自由度。这使得开发者能够创建适用于各种场景的 AI 生成图像,从社交头像、社媒封面到高清海报。而 Auraflow 背后的 Fal.ai 主打生成速度快,以实时 AI 推理基础设施闻名,基于此开发出来的两个 demo,Drawfast 和 Fal.ai Camera,也在社交媒体上走红。
Drawfast 是一个实时协作绘图工具,利用 Fal 的 AI 推理基础设施提供直观且响应迅速的绘图体验,允许多个用户同时创建和编辑图像,非常适合头脑风暴、协作设计或休闲绘画。
视频来源:https://drawfast.tldraw.com/
另一个产品 Fal.ai Camera 是一款 AI 驱动的相机应用,允许用户在照片和视频上使用各种 AI 驱动的滤镜和效果,并实时查看预览,可以应用于摄影、视频创作和直播。和 Fal Camera 类似的 Deep live cam 在网络上爆火也证明了这类实时 AI 换脸应用的市场,而这些应用的实现离不开主打快速实时生成的大模型。
Youtube博主@Defonten使用fal.ai camera视频截图
因为可供开发者选择的模型更多了,开发者可以根据自身需求灵活地部署模型,尽可能在模型的通用性、可靠性和经济性上取得一个适配产品的平衡。如更需要创作奇幻风或者动漫风场景的开发者就可以选择艺术特长且便宜的 Auraflow,而对于一些对生图质量有高要求的广告创意工作者可以选择出图质量更稳但价更高的 FLUX.1Pro。对于一些模型托管和资源集合型 AI 平台来说,更多的模型也意味着可以训练出更丰富多样化的定制模型,涵盖二次元、家装、游戏、电商等不同的使用场景,形成不同的画风参数。“我们是一个面向大众的平台,但差不多50% 的用户都是在职业场景下使用,建筑、设计、游戏、电商等等,在一年之前,其实生图模型还不太能支持落地,现在也不能说可以直接应用,但慢慢地正在往能用上靠近”,思源说道。
技术之外,成本的降低也在让一些 toC 的应用开始有可能跑通商业模式。与传统互联网时代,技术成本(非研发)基本上可以不太考虑不同,AI 产品的商业模式发生了根本变化,推理成为了一个重要的成本构成。“模型竞争越激烈,其成本就越容易打下来,相较于1-2年前,价格已经降了10倍不止,更多人能参与到这场技术革新之中来。”AI 绘画产品创业者丝丝在一场播客中分享。