Home » 新人工智能图像生成器比 SDXL 更省钱

新人工智能图像生成器比 SDXL 更省钱

by v

Stability AI 是广受欢迎的 Stable Diffusion 图像生成器背后的公司,该公司刚刚向竞争激烈的人工智能领域投掷了另一枚手榴弹。

Stability 的全新 Stable Cascade 采用了全新的开源 Würstchen 架构,为文本到图像的生成提供了一种高效的模块化方法,在质量、速度和适应性之间实现了平衡。

该公司称,该模型实现了与传统稳定扩散模型不同的压缩系数,能够生成更高分辨率和更多细节的结果–可与 SDXL 或 MidJourney(通常使用 1024×1024 分辨率)等现代生成器相媲美。

图像: Stability AI

图像: Stability AI

Würstchen ingredients

稳定级联采用三阶段工艺,有别于传统的稳定扩散管道:

    C阶段:文本条件潜像生成器 C阶段只专注于处理基于文本的指令和生成压缩潜像。这种解耦文本生成方法大大降低了针对特定用例进行微调的复杂性和成本。
图片: Stability AI

图片: Stability AI


换句话说,它做到了它的名字所暗示的那样。它首先通过文本驱动生成器生成微小的图像快照,然后将快照膨胀为更详细的图像,最后以高质量、全分辨率图像的形式呈现在你眼前。

模块化优势

据开发人员介绍,Stable Cascade 的模块化设计带来了几个令人信服的优势。首先是极高的效率:由于采用了压缩的潜在空间(人工智能评估图像组成的方式,而非人类所看到的像素空间)和重点突出的 Stage C 模型,Stable Cascade 实现了更快的推理时间,这意味着它能更快地计算出预测结果。与 SDXL 等大型稳定扩散模型相比,它的硬件要求大大降低。

Stability AI 的内部测试表明,Stable Cascade 能够在图像质量和美学吸引力方面始终优于 SDXL 等同类模型。此外,该模型还能以极高的速度实现这些结果,同时大大减少了对计算资源的需求。

图像: Stability AI

图像: Stability AI


“Stability AI “宣称的另一个优势是它的多功能性。稳定扩散艺术家现在用来完善作品的许多工具(如 ControlNets 或 LoRas)都是兼容的。而且,由于其极高的效率,用户可以在工作流程中添加更多的这些工具,而不会破坏他们的记忆。

该模型的轻量级架构、较小的模型占用空间以及与功能较弱的计算硬件的兼容性降低了入门门槛,使普通用户和研究人员更容易获得先进的文本到图像生成技术。

少花钱多办事



我们的测试结果表明,该模型准确、细腻,不会像 Stability AI 之前的 SDXL 涡轮增压或 LCM 模型那样呈现出冲淡的橡胶美感。相反,它生成的图像非常细腻,与经过微调的 SDXL 模型不相上下。

它还具有一些基本的文本生成功能,可以利用 Civitai 等在线资源库中已有的 LoRA 进一步增强这些功能。

Stability AI 报告称,尽管 Stable Cascade 比 Stable Diffusion XL 拥有更多的参数,但它的推理时间仍然更快,而且在及时对齐方面表现出色。

与类似规模的 Stable Diffusion 模型相比,微调 Stable Cascade 所需的资源也更少。研究人员和爱好者可以用更小的数据集和更少的计算能力来训练该模型,这使得它非常具有成本效益。

Stable Cascade 在非商业研究许可下发布,可在 Stability AI 的 GitHub 存储库中随时获取,社区维护的 ComfyUI 工作流已经可用,可自动下载模型,使用更加方便。

Related Posts

Leave a Comment