什么是稳定扩散以及如何最大化其威力

利亚姆·米勒 利亚姆·米勒
2023 年 7 月 26 日(更新日期:2023 年 7 月 26 日)提交给: 人工智能工具

人工智能的进步现在正在接管一些有助于生成图片的程序。您可能会看到稳定扩散工具。但 什么是稳定扩散?这是一个图像生成工具。它的主要目的是根据提示生成图片,人们发现一起生成各种角色和元素很有吸引力且有趣。详细了解什么是稳定扩散并了解其工作原理。

第 1 部分:什么是稳定扩散

它是一种深度学习的文本到图像模型,通过输入描述主要主题的提示来创建图片。例如,您可以输入“猫”,该工具将生成一张猫的图片。然而,当您输入复杂的提示时,它可以进一步强调或添加更多细节。生成神经网络不仅仅是一个人工智能工具,因为它还受其他任务的限制,例如通过文本提示进行外画、修复和图像到图像的翻译。

Stable Diffusion 由 Stability AI 开发和资助,但慕尼黑路德维希马克西米利安大学的 CompVis 小组拥有潜在扩散模型的技术许可。此外,该开发由研究人员 Patrick Esser 和 Robin Rombach 领导,他们从作为项目支持者的德国非营利组织获得了更多培训数据。 2022 年 10 月晚些时候,该公司在 2022 年 8 月首次推出后筹集了 1.01 亿美元。

稳定扩散

第 2 部分. 什么是 VAE 稳定扩散

您在使用AI照片生成器时可能遇到过这种情况,VAE对该工具很有帮助。 VAE 代表可变自动编码器,用于微调解码器以绘制更好的细节。它是人工智能工具的补充,因为它可以帮助获得更清晰的图像和鲜艳的色彩,并改善手和脸的生成。

当然,VAE 不仅仅用于稳定扩散,因为所有模型都有内置的 VAE 来计算细节。比较将是每个模型之间的结果以及压缩图片时它们的结果。此外,您还可以将单独的 VAE 文件下载到您的设备上。要尝试一种解码器,您可以使用以下命令:

Vae 文件

第 3 部分. 什么是 Dreambooth on Stable Diffusion 以及如何安装

DreamBooth 是一种深度学习生成模型,可以对生成的图片,尤其是特定主题进行微调。最初,它是基于 Imagen 的文本到图像模型,但不幸的是,Imagen 没有像 Stable Diffusion 或其他 AI 工具那样预先训练的权重。 DreamBooth 由 Google 研究人员和波士顿大学的一些同事于 2022 年进一步开发。

该模型的工作是修改和微调生成的照片,但它也能够在任何设置和情况下渲染熟悉的主题。由于大多数预训练的扩散模型在该类别中仍需要改进,DreamBooth将加强对扩散模型的训练。只需五张图像,就可以使用稳定扩散等平台来完成图像修改。以下是有关如何在稳定扩散上使用 DreamBooth 的简短说明:

步骤1。首先,您必须拥有要在 DreamBooth 上使用的一个主题的训练图像。确保拍摄对象已被拍摄。继续将图片大小调整为 512x512 像素。

第2步。打开DreamBooth并进入 实例提示课堂提示。通过单击处理更改 界面左侧的按钮。

Dreambooth实例提示

第 3 步。完成后,对其进行测试,您将收到模型生成的一些样本。您可以从 Google Drive 下载模型检查点文件并将其安装在 GUI 中。

梦亭测试

第 4 部分:什么是稳定扩散中的 CFG 尺度

您可以在照片生成器模型中找到此值集。既然它是必要的,那么你就必须了解什么是值得优化图像的。分类器自由指导量表允许用户调整结果与输入图像或使用的提示的接近程度。例如,当您将 CFG 比例调整为更出色的值时,输出将与输入图像更相似,但预计会失真。另一方面,较低的 CGF 比例将使输出远离主要提示,同时产生更好的质量。

但是什么时候需要在稳定扩散上使用 CFG 比例呢?答案很简单:AI 照片生成器无法创建超出其知识范围的东西,因此 CFG 量表将通过调高其值来帮助您连接多个主题。唯一的缺点是图像质量的代价,这与提示成正比。如果对这个工具感兴趣,您必须练习校准秤以找到最佳位置。

CFG规模

第 5 部分. 什么是去噪强度稳定扩散

此方法启动一个向输入图像添加噪声的过程。它只是一个 稳定的扩散放大器。它对于稳定扩散具有极好的价值,因为它可以通过图像到图像(img2img)或InPaint。噪声量由“降噪强度”控制,从最小值 0 到最大值 1。将该值设置为 0 会将噪声减少到无噪声,从而生成与输入图像相似的图像。否则,值 1 会将输入替换为噪声。

您可以使用降噪强度作为实用方法来确定输出与输入图像影响的接近程度。一个很好的例子是较低的去噪强度,使生成的图像看起来更接近输入,这是进行细微修改的理想设置。另一方面,较高的去噪强度可能会增加变化,同时降低输入和输出图像的相似性。因此,较高的值有助于进行重大修改。

去噪强度

第 6 部分. 什么是 Clip Skip 稳定扩散以及如何使用

CLIP 被称为用于分析文本的嵌入层。它的结构是由层组成的,每个个体都比前一层更具体。例如,第 1 层可以是“人”,第 2 层可以是“女性”或“男性”。然后,下一层将是“父母、父亲、男人、男孩等”。

其目的是获得精确的文本模型,从而停止一长串图层,最终混合更多数据并为您提供超出您需要的数据。最好的例子是 1.5 模型,其深度为 12 个。每层都有文本嵌入,并且可以与其他细节混合,例如大小、颜色等。CLIP 跳过文本空间维度并获得精确的输出。使用方法如下:

步骤1。从稳定扩散检查点,转到设置并选择“稳定扩散”。

第2步。向下滚动并转到“剪辑跳过”。请将其设置为所需的值,然后向上滚动以单击“应用设置”按钮。

剪辑跳过

第七部分 什么是稳定扩散生成速度以及如何加速

当您查看人工智能生成器的速度时,您会预计需要一些时间才能显示结果。然而,稳定扩散的生成速度为10秒。这仅适用于在线工具的一般使用,但是当订阅主要或标准计划时,时间仍然可以缩短最多四秒。这是加快模型速度的一种方法,但结果的准确性偏离输入 稳定扩散提示。此外,该工具是免费的,只有定价计划中的一些功能限制。那么,如何在不付费的情况下加快生成速度呢?

加速的唯一要求是 Nvidia 卡,可以是 4000、3000、2000 甚至 1000 系列。您可以使用 Lovelace、Ampere、Pascal Turing 等。作为替代方案,请使用 float16 等较低精度并运行更少的推理步骤。

额外提示:更改稳定扩散结果大小

在了解了人工智能模型之后,您还必须了解一件事:文件大小是图像的一个重要因素,并且由于文件大小较大,它们可能会占用您的存储空间。但与 AnyRec 免费在线图像压缩器,压缩照片会很方便。该在线工具具有最新的人工智能技术,可以帮助优化上传,同时减小文件大小。由于它生成的文件较小,因此用户可以从本地文件夹导入更多图像,压缩器将立即加载它们。

第 8 部分. 有关稳定扩散的常见问题解答

结论

这篇文章解释了 什么是稳定扩散 以及它如何与 Clip Skip、VAE、DreamBooth、CFG Scale 和 Denoising Strength 配合使用。另一方面,您可以使用AnyRec免费图像压缩器在线来减小生成图片的文件大小。它完全免费且无限制使用!

相关文章: