Stable Diffusion 项目：创作插画

作者： Adrian Tam 于 2024年7月18日发布在 Stable Diffusion 0

许多人在工作中写作。并非人人都是小说作家；有些人写技术文档、商业计划、新闻文章，甚至博客文章。在这些写作中，插图并非必需，但通常是锦上添花。它们是装饰、解释或文本的视觉说明。然而，你可能不想花太多时间，或者不具备绘画技能来创作插图。Stable Diffusion可以帮助你！

在这篇文章中，你将看到如何使用Stable Diffusion来创作插图。读完这篇文章后，你将学会：

如何从文本创建提示词
如何调整提示词以获得更好的插图

通过我的书《使用Stable Diffusion掌握数字艺术》来启动你的项目。它提供了带有可运行代码的自学教程。

让我们开始吧

Stable Diffusion 项目：创作插画
照片由Koushik Chowdavarapu拍摄。保留部分权利。

概述

这篇文章分为三个部分；它们是

项目构想
创作插图
面部细节

项目构想

插图是对文本的装饰。让我们从下面的故事开始：

一群将军正在攻打一座堡垒。将军们必须集体决定是进攻还是撤退；有些人可能倾向于进攻，而另一些人则倾向于撤退。重要的是，所有将军都同意一个共同的决定，因为少数将军半途而废的进攻会变成溃败，而且比协调一致的进攻或撤退更糟。

叛变将军的存在使问题更加复杂，他们不仅可能投票支持次优策略；他们还可能选择性地这样做。例如，如果有九位将军投票，其中四位支持进攻，而另外四位支持撤退，那么第九位将军可能会向支持撤退的将军发送撤退的投票，并向其余将军发送进攻的投票。那些收到第九位将军撤退投票的将军会撤退，而其余将军会进攻（这可能对进攻者不利）。将军们被物理隔离，并且必须通过可能无法传递投票或伪造虚假投票的信使发送投票，这进一步使问题复杂化。

如果你熟悉这个故事，它就是拜占庭将军问题的描述。上面的文字来自维基百科。你将要创作一幅配图来伴随上述文字。

创作插图

简单来说，你可以打开Stable Diffusion Web UI，将故事作为正面提示词输入并生成。但有一些问题。首先，故事可能有不同的场景，而插图只需要一个。其次，描述并不适合用作提示词。由于文本将被转换为扩散过程的嵌入，你希望强调关键词，而使用语法正确的句子并不重要。第三，除了正面提示词，你可能还需要一个负面提示词。

改写故事以使其适合用作提示词是第一步。ChatGPT或其他AI工具擅长改写。你可以从ChatGPT中的以下提示词开始：

下面是一个故事。请提取一个关键场景，并将其描述为Stable Diffusion生成插图的提示词。如果合适，请也描述相应的负面提示词。

故事：一群将军正在攻打一座堡垒。将军们必须集体决定是进攻还是撤退；有些人可能倾向于进攻，而另一些人则倾向于撤退。重要的是，所有将军都同意一个共同的决定，因为少数将军半途而废的进攻会变成溃败，而且比协调一致的进攻或撤退更糟。叛变将军的存在使问题更加复杂，他们不仅可能投票支持次优策略；他们还可能选择性地这样做。例如，如果有九位将军投票，其中四位支持进攻，而另外四位支持撤退，那么第九位将军可能会向支持撤退的将军发送撤退的投票，并向其余将军发送进攻的投票。那些收到第九位将军撤退投票的将军会撤退，而其余将军会进攻（这可能对进攻者不利）。将军们被物理隔离，并且必须通过可能无法传递投票或伪造虚假投票的信使发送投票，这进一步使问题复杂化。

响应将是：

Stable Diffusion的关键场景描述

在一个戏剧性的时刻，九位将军在一个昏暗的战争帐篷里围成一圈，气氛因他们面临着从一个迫近的堡垒进攻或撤退的关键决定而充满悬念。将军们正在深入讨论，一些将军表情坚毅，另一些则带着疑虑，反映了他们相互冲突的偏好。场景中心，一名信使正在递交选票，他的出现加剧了紧张气氛，将军们警惕地看着他。背景是帐篷墙上贴着的地图和作战计划，通过帐篷的敞开门廊可以看到堡垒的远景轮廓。将军们的表情和肢体语言传达了他们困境的严重性，暗示着潜在的背叛和沟通不畅的迫在眉睫的危险。

负面提示词

避免描绘现代技术、未来元素以及不现实或奇幻的场景。场景中不应包含任何超自然元素或像计算机或现代制服这样的时代错误细节。

使用ChatGPT为Stable Diffusion生成提示词

只需将这两个生成的段落复制粘贴到Stable Diffusion Web UI中作为正面和负面提示词，你可能会得到这个：

使用ChatGPT建议的提示词从Stable Diffusion生成的图片

这是使用Deliberate模型生成的，分辨率设置为768×512像素。这个结果不算差，但可能不是你想要的。首先，这个输出看起来像一张照片。如果你重复几次，你会看到各种不同的风格可能被生成，因为你从未提及你想要的风格！当然，你想打磨提示词以获得更好的图片。

让我们再次求助于ChatGPT，进行后续操作：

将正面提示词的回答简化为更少的词语

然后你会得到：

Stable Diffusion的正面提示词

九位将军在一个昏暗的战争帐篷里，正在深入讨论是进攻还是撤退一座堡垒。紧张的表情和肢体语言反映了他们相互冲突的偏好。一位信使正在递交选票，加剧了紧张气氛。帐篷墙上装饰着地图和作战计划，通过敞开的门廊可以看到堡垒的轮廓。

要求ChatGPT简化提示词

你可以用这个更短的版本替换你的正面提示词。结果应该没有太大差异。一个好的提示词应该包含主要焦点、背景、构图和风格。这个提示词缺少最后一点。所以你可以修改提示词来丰富这些细节。如果你想要一个逼真的输出，添加“photorealistic”这个关键词应该有效。

负面提示词对于生成也很重要。我们也可以简化负面提示词，只提供关键词。你还应该在负面提示词中添加一些风格关键词来控制你不想要的内容。示例如下：

现代技术、未来元素、奇幻、超自然元素、草图、卡通、动漫、模特

输出如下：

通过调整使用的提示词，Stable Diffusion的改进生成

面部细节

如果你想要一张包含很多人物的写实照片，很容易失败。上面的截图就是这种情况：如果你仔细看每个人的脸，你会发现很多人都有奇怪的面部表情或扭曲的解剖结构。这可以修复，但不是通过提示词。

你需要为Stable Diffusion安装“ADetailer”插件：转到扩展选项卡，在“从URL安装”部分输入URL，然后重启Web UI。然后你就可以在text2img控制面板中看到“ADetailer”部分了。

重复提示词，但这次你应该勾选“ADetailer”启用它，并确保检测器是“face_yolo8n.pt”。这将检测生成图片中的人脸，并运行图像修复来重新生成人脸。你不需要在ADetailer插件中提供任何额外的提示词，除非你希望这些人脸有一些额外的细节。结果如下：

Stable Diffusion的生成。注意人脸看起来是畸形的。

应用ADetailer插件后的改进图片。

这两张图片是使用固定的随机种子生成的，所以它们看起来相似。但有了ADetailer插件，你看到的人脸看起来更自然了。现在你可以将生成的图片用作你写作的插图了。

进一步阅读

如果您想深入了解此主题，本节提供了更多资源。

总结

在这篇文章中，你体验了一个工作流程，学习了如何从文本中提取场景并将其转换为Stable Diffusion的提示词。通过注意细节，你可以修改提示词来生成适合作为你文本插图的图片。你还了解到，Stable Diffusion Web UI的ADetailer扩展可以通过替换生成图片中看起来更自然的人脸来帮助你制作更好的图片。