Chat with Wiki - ai修图的原理

Answer

AI 修图的原理主要包括以下几个方面：

对于 Stable Diffusion 这类软件，其工作原理类似于学习画画。就像学习梵高的风格，需要大量临摹，而 AI 则通过对成千上万美术风格作品的学习形成大模型，如 Checkpoint。用户要想获得满意的作品，需选择合适的大模型。大模型可在 C 站下载，但需科学上网。
ComfyUI 是一个开源的用于生成 AI 图像的图形用户界面，主要基于 Stable Diffusion 等扩散模型。其原理包括 Pixel Space（像素空间）和 Latent Space（潜在空间）。像素空间对应输入图像或随机噪声图像，最终生成的图像也会转换回像素空间。许多操作在潜在空间进行，如通过 KSampler 节点执行采样过程，可通过节点调整潜在空间的操作，如噪声添加、去噪步数等。
扩散过程是从噪声生成图像的过程，通过调度器控制，如 Normal、Karras 等，可选择不同调度器控制在潜在空间中处理噪声及逐步去噪回归到最终图像。时间步数也会影响图像生成的精细度和质量。

在实际的 AI 修图过程中，还涉及到提示词编写、对输出图片的二次和多次微调、确定情绪和风格等锚点再发散联想等操作，以获得更符合需求的修图效果。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI梦：一丹一世界（下） 2025年2月8日副本

[heading2]总结AI作图的创作方法与实操演示趣味性与美感概念：趣味性通过反差、反逻辑、超现实方式带来视觉冲击，美感需在美术基础不出错前提下形式与内容结合。纹身图创作要点：强调人机交互，对输出图片根据想象进行二次和多次微调，确定情绪、风格等锚点再发散联想。魔法少女示例：以魔法少女为例，发散联想其服饰、场景、相关元素等，并可采用反逻辑反差方式。提示词编写方法：用自然语言详细描述画面内容，避免废话词，Flux对提示词的理解和可控性强。实操演示准备：以未发布的Lora为例，按赛题需求先确定中式或日式怪诞风格的创作引子。人物创作过程：从汉服女孩入手，逐步联想其颜色、发型、妆容、配饰、表情、背景等元素编写提示词。关于中式风格图像生成的讨论人物图像生成：描述了生成穿蓝色汉服女孩的半身像，包括发型、妆容、服饰、配饰等特征，以及光线、环境等元素，探讨了画面分辨率、风格控制等。动物图像生成：尝试生成蛇、孔雀等动物的图像，涉及颜色、姿态、所处环境等描述，分析了生成效果未达预期的原因。景观图像生成：简要描述了生成中式宫殿、桃花树等室外景观的尝试，展示了相关测试图。

【SD】软件原理傻瓜级理解

首先是关于Stable Diffusion的工作原理，就好比你现在想学画画，学梵高的风格，那么你肯定要先去看梵高的画，然后一幅幅的临摹。一幅画起码要临摹个一百遍吧，从一开始完全不像，到慢慢找到要领，要想画到出神入化以假乱真的地步，一个月的时间够短了吧。梵高一生有接近500幅画，全部学完大概四十年吧，然后你就可以开始接单画梵高风格的画了。当然，客户的要求肯定不是让你画一模一样的梵高《向日葵》，而是说我要一幅梵高的《西瓜》，并且考虑到你已经很熟练了，给你半个小时的时间画出来，应该不难吧。于是，你吭哧吭哧地画完，客户看完之后立马给了你一个大嘴巴子，说你这个画的是神马东西，立马再给我画一幅。然后你强忍着泪水继续画，好不容易画完了，客户看完之后略有所思，说这一稿还行，但是这个颜色不太好，你再用黄色、紫色、粉红色各微调一版给我。于是，你又花了两个小时，改了三稿给客户，客户看完沉吟了许久，说我可能不太喜欢梵高了，你给我来一幅毕加索风格的吧。。。。。。于是，我打开了AI，花了一分钟的时间画完了这两幅画。如果把上文中的你换成是AI，这大概就是AI绘画的逻辑了。你花了四十年的时间所学习的梵高风格，就相当于是Stable Diffusion的大模型——Checkpoint。人们把成千上万的美术风格的作品练成一个模型放在AI里面，AI就能依照这个模型画出风格类似的作品。所以你想要画出符合你心意的作品，首先就是要选对合适的大模型。大模型的下载，可以去咱们大名鼎鼎的C站（https://civitai.com/），有真实系的（Chillmixout）、有二次元的（anything）、有游戏CG风（ReV Animated）的等等，但是需要科学上网。

ComfyUI的生图原理副本

ComfyUI是一个开源的图形用户界面,用于生成AI图像,主要基于Stable Diffusion等扩散模型。想要达到精准控制图像生成就要了解他的底层原理，这样才能做到什么时间什么节点用什么办法对其精准控制，以下是其工作原理的详细解释:[heading3]Pixel Space和Latent Space[content]Pixel Space（像素空间）：图的左边表示输入图像的像素空间，在ComfyUI中，这个对应于你可能通过“图像输入”模块或直接从文本提示生成的随机噪声图像。在生成过程结束时，系统会将处理后的潜在表示转换回像素空间，生成最终的图像。Latent Space（潜在空间）：ComfyUI中的应用：ComfyUI的许多操作都在潜在空间中进行，如KSampler节点就是在这个空间中执行采样过程。图像被映射到潜在空间后，扩散过程在这个空间中进行。在ComfyUI中，你可以通过节点调整对潜在空间的操作，如噪声添加、去噪步数等。这部分通常由潜在空间操作模块来实现。[heading3]2.扩散过程（Diffusion Process）[content]噪声的生成和逐步还原：扩散过程表示的是从噪声生成图像的过程。在ComfyUI中，这通常通过调度器（Schedulers）控制，典型的调度器有Normal、Karras等，它们会根据不同的采样策略逐步将噪声还原为图像。你可以通过ComfyUI中的“采样器”节点选择不同的调度器，来控制如何在潜在空间中处理噪声，以及如何逐步去噪回归到最终图像。时间步数TTT：在生成图像时，扩散模型会进行多个去噪步。图中展示的zTz_TzT代表不同时间步长下的潜在表示。在ComfyUI中，你可以通过控制步数来影响图像生成的精细度和质量。