Stable Diffusion 是一个强大的工具,可以帮助您生成图片。玩转这个生成式人工智能工具很有趣。但如果该工具能在实际工作中帮助您,那将更有用。在本帖中,您将了解如何利用 Stable Diffusion 的强大功能来处理一些实际且实用的内容。完成本帖后,您将学会:
- 决定如何使用 Stable Diffusion 的推理过程
- 在您的创意项目中用 Stable Diffusion 增强其他工具
通过我的书《掌握 Stable Diffusion 数字艺术》来启动您的项目。它提供了带有工作代码的自学教程。
让我们开始吧

Stable Diffusion 项目:艺术字
照片作者:Zach Key。部分权利保留。
概述
这篇文章分为三个部分;它们是
- 项目构想
- 创作图片
- 不同主题的相同想法
项目构想
想象一下您正在做一个项目,需要一些文字艺术。它可以是您网站的横幅,也可以是海报的关键视觉元素。文字应该被看到,但图形也很重要。如何将字母融入图片中?您希望结果非常吸引人,而不是像用 Photoshop 或 Microsoft Word 就能轻松创建的水平。
让我们考虑“绿色”环保的主题。我们想要一张自然风光和“绿色”字样的图片。让我们看看如何创建它。
创作图片
使用 Stable Diffusion 的合适提示轻松创建自然场景。将文本叠加到图片上应该不难,因为您可以在 PowerPoint 中轻松地为图片背景添加带有阴影的文本。但要使场景与文本融合,即使使用 Photoshop,也需要一些技巧,而且需要花费大量时间。
控制图片生成但同时对图片施加额外约束的想法是 ControlNet 可以做到的。要使用 ControlNet,您需要一张图片。让我们用 GIMP 创建一张。
假设目标图片为 768×512 像素(请记住 SD1 模型的默认分辨率为 512×512 像素;您不应使尺寸差异过大)。您可以在 GIMP 中将画布设置为此尺寸,并在白色背景上制作黑色字样的“GREEN”。然后将图片保存为 PNG。

创建一张带有白色背景和黑色文字“GREEN”的图片。
请注意,您不必一定使用 GIMP 来创建此类图片。您也可以在 Microsoft Word 中输入文字并截屏。这种方法的唯一问题是您不容易控制分辨率。
让我们转到 Stable Diffusion Web UI。您应该使用“text2img”功能并选择一个 Stable Diffusion 1.x 模型(例如 Deliberate_v6)。因为我们要生成自然场景,您可以设置提示:
自然场景,森林,细节丰富,史诗感
并将负面提示留空。将图片尺寸设置为宽度 768 像素,高度 512 像素。使用这样的提示(具体效果取决于您选择的模型、CFG scale 和采样器),您可以生成如下图片:

森林图片。作者使用 Stable Diffusion 生成。
看起来不错。现在您已确认提示有效,并且输出符合您的预期。让我们继续使用 ControlNet。启用 ControlNet,然后上传您用 GIMP 创建的图片。将“Control Type”设置为“All”,然后在预处理器中选择“invert (from white bg & black line)”,模型选择一个深度模型(例如“control_v11f1p_sd15_depth”)。然后点击生成,看看效果如何。您可能会看到如下结果:

一张文字与背景融合效果不佳的图片。
文字“GREEN”似乎没有融入图片。文字有一些纹理,但仍然显得生硬地叠加在图片上。这是因为您没有正确使用 ControlNet。这是 ControlNet 驱动图片生成时间过长的结果。您可以降低 ControlNet 的重要性,将控制权重设置为 0.7 而不是 1.0。但最重要的是,您希望 ControlNet 只在扩散过程的前 60% 的步骤中参与。这样,后 40% 的步骤只使用您的提示,但图片的轮廓已经确立。
仅凭此更改,您应该会看到文字和图片更好的融合。但有时,您可能会看到文字失真,因为您在最后 40% 的步骤中给了扩散过程太多的自由度来更改您的图片。这很难控制,但您可以设置更大的批次大小或生成多个批次来尝试运气,使用多个随机种子。以下是一个示例:

Stable Diffusion 生成的文字艺术,文字很好地融入了背景。
这张图片使用“Euler a”采样器,Karras 调度,25 步,CFG scale 为 5。ControlNet 的权重为 0.7,控制起始步为 0,控制结束步为 0.6。生成图片的一半会有一些字母变形,但这另一半中最好的一个。您可以看到树木如何构成字母。您需要花很长时间才能用 Photoshop 绘制出这样的效果。
不同主题的相同想法
“绿色”并不总是与自然有关。通过使用不同的提示但保持所有其他参数不变,您可以获得不同的图片。让我们“拥抱绿色”,推广食用蔬菜。只需将提示更改为:
厨房桌子上的蔬菜
您会得到如下图片:

在 Stable Diffusion 中重新使用相同的模板生成不同的图片。
这实际上是您应该学会如何有效使用 Stable Diffusion 的经验:通过尝试不同的参数并找到最佳参数,您可以轻松地稍微调整工作流程,以相同的出色质量创建全新的图片。
进一步阅读
如果您想深入了解此主题,本节提供了更多资源。
- ControlNet (GitHub)
- Zhang 等人(2023)的《为文本到图像扩散模型添加条件控制》
- Hugging Face 上的《Deliberate 模型》
总结
在本帖中,您已经了解了如何创建一种文字艺术图片,将文字自然地融入背景。结果很吸引人,而且手工绘制很难实现。然而,您可以使用 Stable Diffusion 和 ControlNet 插件快速获得如此详细的结果。
今天正好在找这样的内容。
您是否见过类似的,但它们使用螺旋形作为 ControlNet 图片,或者将单词隐藏在图像的构图中?这与这个类似,但形状通常更融入一些。
您是否知道这是如何实现的?我尝试过使用 QR 码模型,但效果很差,但我过去曾成功过,但现在找不到了。如果您已经介绍过这个话题,请随时给我发邮件。
在这种用例中,ControlNet 非常强大,但您应该注意控制步数。在此示例中,图片是通过控制起始步 0 和控制结束步 0.6 生成的。将控制步设置为 0.0 到 1.0 肯定会失败,因为您让 ControlNet 的影响过于主导。