Gate 广场「创作者认证激励计划」优质创作者持续招募中!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
活动详情:https://www.gate.com/announcements/article/47889
中国的Z-Image取代Flux成为AI艺术之王——而你的土豆电脑也能运行它
简要说明
Decrypt的艺术、时尚和娱乐中心。
深入了解 SCENE
阿里巴巴的通义实验室Z-Image Turbo,一个拥有60亿参数的图像生成模型,上周发布,简单承诺:在你实际拥有的硬件上提供最先进的质量。
这一承诺的落地效果显著。在发布几天后,开发者们已经以超过Flux2的速度推出了LoRA——定制的微调适配版本,Flux2是黑森林实验室备受追捧的、对广受欢迎的Flux模型的继任者。
Z-Image 的绝活是高效性。虽然像 Flux2 这样的竞争对手要求至少 24GB 的 VRAM (,完整模型需要高达 90GB ),但 Z-Image 可以在量化设置下以仅 6GB 的内存运行。
这属于RTX 2060的领域—基本上是2019年的硬件。根据分辨率,用户可以在短短30秒内生成图像。
对于爱好者和独立创作者来说,这扇门以前是锁着的。
AI艺术社区迅速赞扬了该模型。
"这就是SD3本该是的样子,"用户Saruhey在CivitAI上写道,这是全球最大的开源AI艺术工具库。“提示遵循度非常出色……能够立即处理文本的模型是颠覆性的。这东西的能力与Flux相比不相上下,甚至更强大。中国在AI领域遥遥领先。”
Z-Image Turbo 自上周四以来已在 Civitai 上线,已经获得超过 1,200 条积极评价。作为背景,Flux2——在 Z-Image 之前几天发布——有 157 条评价。
该模型完全从头开始不受限制。名人、虚构角色,以及是的,露骨内容都在讨论之中。
截至今天,Civitai上大约有200个资源(,包含finetunes、LoRAs和工作流),其中许多是NSFW.
在Reddit上,用户Regular-Forever5876测试了模型的极限,使用了血腥的提示,结果让他们震惊:"天哪!!!这个东西对血腥内容的理解简直太棒了!它生成得毫无瑕疵,"他们写道。
Z-Image Turbo背后的技术秘密是其S3-DiT架构——一种单流变压器,它从一开始就一起处理文本和图像数据,而不是在后期合并。这样的紧密集成,再加上激进的蒸馏技术,使得该模型能够达到通常需要五倍于其大小的模型才能达到的质量基准。
测试模型
我们对Z-Image Turbo进行了多维度的广泛测试。以下是我们发现的结果。
速度:SDXL速度,下一代质量
在九个步骤下,Z-Image Turbo生成图像的速度大致与SDXL相同,而在通常的30个步骤下——这是一个在2023年发布的模型。
区别在于Z-Image的输出质量与Flux相匹配或超越。在一台配备6GB VRAM的RTX 2060 GPU的笔记本电脑上,一张图像花费了34秒。
相比之下,Flux2生成一张可比较的图像所需的时间大约是十倍。
现实主义:新的基准
Z-Image Turbo 是目前可用于消费级硬件的最逼真的开源模型。它完全超越了 Flux2,并且基础蒸馏模型的表现优于 Flux 的专用现实主义精调版本。
皮肤和头发的质感看起来细致而自然。臭名昭著的"Flux下巴"和"塑料皮肤"大多消失了。身体比例始终保持稳固,增强现实感的LoRA已经在流通。
文本生成:最终,行之有效的词汇
这是Z-Image真正闪耀的地方。它是图像内文本生成的最佳开源模型,其性能与谷歌的Nanobanana和Seedream相当——这些模型设定了当前的标准。
对于普通话使用者来说,Z-Image 是明显的选择。它能够以本地语言理解中文,并正确渲染字符。
专业提示:一些用户报告说,用普通话提示实际上有助于模型产生更好的输出,开发者甚至发布了一个普通话的“提示增强器”。
英文文本同样强大,但有一个例外:像“去中心化”这样的不常见长词可能会让它绊倒——这是Nanobanana也存在的限制。
空间意识和及时遵守:卓越
Z-Image的提示遵循性非常出色。它以惊人的精确度理解风格、空间关系、位置和比例。
例如,取这个提示:
一只戴着红色帽子的狗站在一台电视上,屏幕上显示着"Decrypt 是世界上最好的加密货币与人工智能媒体网站"的字样。左边有一位穿着商务套装的金发女性手持一枚硬币;右边有一个机器人站在一个急救箱上,箱子后面是一个绿色的金字塔。整体场景超现实。一只猫倒立在一个白色足球上,旁边是那只狗。一名来自NASA的宇航员手持一块写着"Emerge"的标牌,放置在机器人旁边。
显而易见,它只有一个拼写错误,可能是由于语言混合,但除此之外,所有元素都准确地表示出来了。
提示出血很少,复杂场景中的多个主体保持一致。它在这个指标上胜过Flux,并在与Nanobanana的对比中不落下风。
接下来是什么?
阿里巴巴计划发布两个新变种:用于微调的 Z-Image-Base 和用于基于指令的修改的 Z-Image-Edit。如果它们能像 Turbo 一样精致落地,开源领域将发生巨大的变化。
目前,社区的裁决很明确:Z-Image 已经夺走了 Flux 的王冠,就像 Flux 曾经推翻 Stable Diffusion 一样。
真正的赢家将是吸引最多开发者在其上构建的人。
但是如果你问我们,是的,Z-Image是我们目前最喜欢的家庭导向开源模型。