“图像”生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

2024-02-15 13:05:43来源：机器之心Pro

今天，很高兴为大家分享来自机器之心Pro的生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了，如果您对生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了感兴趣，请往下看。

硬件要求越来越低，生成速度越来越快。

Stability AI 作为文本到图像的「元老」，不仅在引领该领域的潮流方向，也在模型质量上一次次进行新的突破，这次是性价比的突破。

就在前几天，Stability AI 又有新动作了：Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新，它引入了一个三阶段方法，为质量、灵活性、微调和效率设定了新的基准，重点是进一步消除硬件障碍。此外，Stability AI 发布了训练和推理代码，允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推理。该模型以非商业许可发布，仅允许非商业使用。

原文链接：https://stability.ai/news/introducing-stable-cascade

代码地址：https://github.com/Stability-AI/StableCascade

体验地址：https://huggingface.co/spaces/multimodalart/stable-cascade

一如既往简单操作就能够生成目标图像：输入对图像的文字描述即可。

图源：https://twitter.com/multimodalart/status/1757391981074903446

Stable Cascade 的生成速度极快。X 平台用户 @GozukaraFurkan 发文表示它只需要大约 9GB 的 GPU 内存，且速度依旧能保持得较好。

图源：https://twitter.com/skirano/status/1757479638324883753

网友在生成过程中发现新模型在构图和细节方面有明显的提升，文字生成有了很大的进步：生成较短的单词 / 词组正确率比较高，长句也有一定概率可以完成（限英文），文字与画面的融合也非常好。

图源：https://twitter.com/ZHOZHO672070/status/1757779330443215065

图源：https://twitter.com/tyyleai/status/1757883017329054104

用户 @AIWarper 尝试了一些不同的艺术家风格测试。

prompt：Nightmare on Elm Street。艺术家风格参考如下：左上为 Makoto Shinkai，左下为 Tomer Hanuka，右上为 Raphael Kirchner，右下为 Takato Yamamoto。

不过，生成人物面部时可以发现，人物的皮肤细节并不太好，有种「十级磨皮」的感觉。

图源：https://twitter.com/vitor_dlucca/status/1757511080287355093

技术细节

Stable Cascade 与 Stable Diffusion 模型系列不同，它建立在由三个不同模型组成的管道上：阶段 A、B 和 C。这种架构可以对图像进行分层压缩，利用高度压缩的潜在空间实现较为出色的输出。这几个部分是如何组合在一起的呢？

潜像生成器阶段（C 阶段）将用户输入转换为紧凑的 24x24 潜在表征，然后传递给潜在解码器阶段（阶段 A 和 B），用于压缩图像，这类似于 Stable Diffusion 中 VAE 的工作，但能够实现更高的压缩。

通过将文本条件生成（阶段 C）与解码到高分辨率像素空间（阶段 A 和 B）解耦，我们就可以在阶段 C 上完成额外的训练或微调，包括 ControlNets 和 LoRA，与训练类似大小的 Stable Diffusion 模型相比，这成本可以缩减至其的十六分之一。阶段 A 和 B 可以选择性地进行微调以实现额外的控制，但这将类似于微调 Stable Diffusion 模型中的 VAE。在大多数情况下，这样做的收益微乎其微。因此，对于大多数用途，Stability AI 官方建议仅训练阶段 C 并使用阶段 A 和 B 的原始状态。

阶段 C 和 B 将发布两种不同的模型：阶段 C 的 1B 和 3.6B 参数模型，阶段 B 的 700M 和 1.5B 参数模型。推荐使用 3.6B 参数的模型作为阶段 C，因为该模型具有最高质量的输出。不过，对于那希望有最低硬件要求的用户，可以使用 1B 参数版本。对于阶段 B，发布的两者都能取得很好的结果，但 1.5B 参数的版本在重建细节方面表现更佳。得益于 Stable Cascade 的模块化方法，推理所需的预期 VRAM 要求可以保持在约 20GB。这可通过使用较小的变体进一步降低，需要注意的是，这也可能会降低最终输出质量。

比较

在评估中，Stable Cascade 与几乎所有模型比较中在 prompt 对齐和美学质量方面表现最佳。下图显示了使用混合的 parti-prompts 和美学提示进行人类评估的结果：