训练自己的模型来识别不同的图片类别可以参考以下方法:
The issue with DMs is that the powerful ones often consume hundreds of GPU days,and inference is quite expensive due to sequential evaluations.To enable DM training on limited computational resources without compromising their quality as well as flexibility,DMs are applied in the latent space of powerful pre-trained autoencoders.Training a diffusion model on such a representation makes it possible to achieve an optimal point between complexity reduction and detail preservation,significantly improving visual fidelity.Introducing a cross attention layer to the model architecture turns the diffusion model into a powerful and flexible generator for generally conditioned inputs such as text and bounding boxes,enabling high-resolution convolution-based synthesis.先不用多做回复,请问答是否收到即可?3——————————————————————————————————————VersionMidjourney routinely releases new model versions to improve efficiency,coherency,and quality.The latest model is the default,but other models can be used using the--version or--v parameter or by using the/settings command and selecting a model version.Different models excel at different types of images.Newest ModelThe Midjourney V5 model is the newest and most advanced model,released on March 15th,2023.To use this model,add the--v 5 parameter to the end of a prompt,or use the/settings command and select MJ Version 5.This model has very high Coherency,excels at interpreting natural language prompts,is higher resolution,and supports advanced features like repeating patterns with–tile.What's new with the V5 base model?-Much wider stylistic range and more responsive to prompting-Much higher image quality(2x resolution increase)improved dynamic range-More detailed images.Details more likely to be correct.Less unwanted text-Improved performance with image prompting
A drawing for a rabbit stickers,in the style of hallyu,screenshot,mori kei,duckcore plush doll art exaggerated poses,cry/happy/sad/...--ar 3:4--niji 5--style cute--s 180兔子贴纸绘制的图画,采用韩流风格,截图,森喜朗,鸭核毛绒玩偶夸张的姿势会得到不同风格的贴图,我们可以先看看自己喜欢哪一种我一开始找的画面风格不是特别统一,但初次训练的时候不那么严格也是可以的出图过程可以有意识地总结这一类贴图都有什么特征:都是可爱的兔子有不同的衣服和头饰都有一双大大的卡通眼睛,会有不同的面部表情注意事项:关键词中限制了颜色,因此MJ生成的图片会一种情绪对应一种颜色,所以我们同一种情绪最好多生成几张不同色系的,可以减少后续训练中模型把情绪和颜色做挂钩(如果你需要这样的话,也可以反其道而行之)数据集中正面情绪与负面情绪最好比例差不多,如果都是正面积极的,在出一些负面情时(sad,cry)的时候,可能会出现奇怪的问题(如我们训练的是兔子形象,但ai认知的sad可能是人的形象,可能会出现人物特征)如果我们训练256*256大小的表情包,那么这样的素材就已经够用了如果要训练更高像素的图片,则需要进一步使用MJ垫图和高清扩展功能[heading2]高清化[content]左(256)→右(1024)输入左图,加入内容描述,加入风格描述,挑选合适的选出新30张图片(卡通二次元类型的lora训练集30张差不多,真人60-100张)
ok讲完了LLm,我们来看多模态是怎么实现的多模态模型目前基本就是文生图、图生图、图生视频、文生视频这些,其底层逻辑其实还是先从生图片这一源头。因为毕竟视频也是若干帧的图片组成。所以在生图片的这个环节上,我们把比较火的这个stablediffusion用的这个diffusion扩散模型理解掉,也就差不多够了。那么什么是扩散模型呢,这里我拿论文中的两张图帮助理解一张是前向的,在图片上加噪点,最终生成一张无意义的噪点图,一个是后向的,从一个无意义的噪点图上消除噪点,最终得到一张有意义的实际图片。其实扩散模型训练的就是这个加减噪点的过程:先把海量的带有标注文字描述的图片,例如“一只白色的小猫”,逐渐加满噪点。在这个过程中,模型会把每一步的图片向量值,和文字的向量值的数据分布的演变规律,进行系统学习并沉淀下来,这就完成了模型的训练。在后续我们输入文字后,模型就可以根据输入的文字转化为的向量,去指导一个充满噪点的图片每一步减噪点的过程,生成最终的图片。这里其实有两个点一个是diffusion模型中加减噪点的方式,其实也与我们大脑中去构思一张图片的方式有些类似,我们去想像一张图片的时候,不也是从一片模糊中逐渐想清楚一张图片嘛第二个是多模态模型会把文字的向量值和图片的rgb像素点的向量值进行关联,这个也像极了我们大脑中的一个思考过程。