Chat with Wiki - 如何训练一个自己的模型用来识别不同的图片类别

Answer

训练自己的模型来识别不同的图片类别可以参考以下方法：

对于扩散模型（如 Midjourney）：
- 强大的扩散模型训练往往消耗大量 GPU 资源，推理成本高。在有限计算资源下，可在强大预训练自动编码器的潜在空间中应用扩散模型，以在复杂度降低和细节保留间达到平衡，提高视觉保真度。引入交叉注意力层可使其成为灵活的生成器，支持多种条件输入。
- Midjourney 会定期发布新模型版本以提升效率、连贯性和质量。最新的 V5 模型具有更广泛的风格范围、更高的图像质量、更出色的自然语言提示解读能力等。
用 SD 训练贴纸 LoRA 模型：
- 对于原始形象，可通过 MJ 关键词生成不同风格的贴图，总结其特征。注意关键词中对颜色的限制，保持正面和负面情绪数据比例平衡。若训练 256*26 大小的表情包，初始素材可能够用，若训练更高像素图片，可能需进一步使用 MJ 垫图和高清扩展功能。
- 进行高清化时，从 256 到 1024 分辨率，输入左图并加入内容和风格描述，挑选合适的图片。
多模态模型（以 StableDiffusion 为例）：
- 多模态模型包括文生图、图生图、图生视频、文生视频等，底层逻辑通常从生图片源头开始。
- 扩散模型（如 StableDiffusion 中使用的）的训练是对图片加减噪点的过程。先对海量带有标注文字描述的图片逐渐加噪点，模型学习每一步图片向量值和文字向量值的数据分布演变规律，完成训练。输入文字后，模型根据文字向量指导充满噪点的图片减噪点生成最终图片。扩散模型加减噪点方式与大脑构思图片方式类似，且多模态模型会关联文字向量值和图片像素点向量值。

Content generated by AI large model, please carefully verify (powered by aily)

References

The issue with DMs is that the powerful ones often consume hundreds of GPU days,and inference is quite expensive due to sequential evaluations.To enable DM training on limited computational resources without compromising their quality as well as flexibility,DMs are applied in the latent space of powerful pre-trained autoencoders.Training a diffusion model on such a representation makes it possible to achieve an optimal point between complexity reduction and detail preservation,significantly improving visual fidelity.Introducing a cross attention layer to the model architecture turns the diffusion model into a powerful and flexible generator for generally conditioned inputs such as text and bounding boxes,enabling high-resolution convolution-based synthesis.先不用多做回复，请问答是否收到即可？3——————————————————————————————————————VersionMidjourney routinely releases new model versions to improve efficiency,coherency,and quality.The latest model is the default,but other models can be used using the--version or--v parameter or by using the/settings command and selecting a model version.Different models excel at different types of images.Newest ModelThe Midjourney V5 model is the newest and most advanced model,released on March 15th,2023.To use this model,add the--v 5 parameter to the end of a prompt,or use the/settings command and select MJ Version 5.This model has very high Coherency,excels at interpreting natural language prompts,is higher resolution,and supports advanced features like repeating patterns with–tile.What's new with the V5 base model?-Much wider stylistic range and more responsive to prompting-Much higher image quality(2x resolution increase)improved dynamic range-More detailed images.Details more likely to be correct.Less unwanted text-Improved performance with image prompting

如何用 SD 训练一套贴纸 LoRA 模型

A drawing for a rabbit stickers,in the style of hallyu,screenshot,mori kei,duckcore plush doll art exaggerated poses,cry/happy/sad/...--ar 3:4--niji 5--style cute--s 180兔子贴纸绘制的图画，采用韩流风格，截图，森喜朗，鸭核毛绒玩偶夸张的姿势会得到不同风格的贴图，我们可以先看看自己喜欢哪一种我一开始找的画面风格不是特别统一，但初次训练的时候不那么严格也是可以的出图过程可以有意识地总结这一类贴图都有什么特征：都是可爱的兔子有不同的衣服和头饰都有一双大大的卡通眼睛，会有不同的面部表情注意事项：关键词中限制了颜色，因此MJ生成的图片会一种情绪对应一种颜色，所以我们同一种情绪最好多生成几张不同色系的，可以减少后续训练中模型把情绪和颜色做挂钩（如果你需要这样的话，也可以反其道而行之）数据集中正面情绪与负面情绪最好比例差不多，如果都是正面积极的，在出一些负面情时（sad，cry）的时候，可能会出现奇怪的问题（如我们训练的是兔子形象，但ai认知的sad可能是人的形象，可能会出现人物特征）如果我们训练256*256大小的表情包，那么这样的素材就已经够用了如果要训练更高像素的图片，则需要进一步使用MJ垫图和高清扩展功能[heading2]高清化[content]左（256）→右（1024）输入左图，加入内容描述，加入风格描述，挑选合适的选出新30张图片（卡通二次元类型的lora训练集30张差不多，真人60-100张）

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

ok讲完了LLm，我们来看多模态是怎么实现的多模态模型目前基本就是文生图、图生图、图生视频、文生视频这些，其底层逻辑其实还是先从生图片这一源头。因为毕竟视频也是若干帧的图片组成。所以在生图片的这个环节上，我们把比较火的这个stablediffusion用的这个diffusion扩散模型理解掉，也就差不多够了。那么什么是扩散模型呢，这里我拿论文中的两张图帮助理解一张是前向的，在图片上加噪点，最终生成一张无意义的噪点图，一个是后向的，从一个无意义的噪点图上消除噪点，最终得到一张有意义的实际图片。其实扩散模型训练的就是这个加减噪点的过程：先把海量的带有标注文字描述的图片，例如“一只白色的小猫”，逐渐加满噪点。在这个过程中，模型会把每一步的图片向量值，和文字的向量值的数据分布的演变规律，进行系统学习并沉淀下来，这就完成了模型的训练。在后续我们输入文字后，模型就可以根据输入的文字转化为的向量，去指导一个充满噪点的图片每一步减噪点的过程，生成最终的图片。这里其实有两个点一个是diffusion模型中加减噪点的方式，其实也与我们大脑中去构思一张图片的方式有些类似，我们去想像一张图片的时候，不也是从一片模糊中逐渐想清楚一张图片嘛第二个是多模态模型会把文字的向量值和图片的rgb像素点的向量值进行关联，这个也像极了我们大脑中的一个思考过程。