Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图像转线稿

Answer

以下是关于图像转线稿的相关内容:

在图像转线稿方面,有以下几种方法和流程:

  1. 基于真实线稿的背景风格重绘:

    • 可以将图像用蓝色的线连接到 cn 应用。
    • 对于 cn 模型,可以采用深度学习的模型(个人感觉效果更佳),也可以采用“adapter-xl-lineart-fp16.safetensors”线稿模型。
    • 对应的生成图片即可。
  2. 星流一站式 AI 设计工具中的相关功能:

    • 使用图像控制功能,如空间关系、线稿、人物长相、姿势等,来精准控制生成图像的内容和风格。
    • 入门模式下有多种参考功能,如原图、景深、线稿轮廓、姿势、Lineart 线稿、Scribble 线稿、光影、Segmant 构图分割、SoftEdge 线稿、配色参考、配色打乱、法线贴图、MLSD 线稿等。每种参考功能都有其特定的作用,例如将参考图像转化为深度图以控制人物与背景的纵深关系,将参考图像转化为线稿以控制后续图像生成的轮廓等。
  3. 基于 ipadapter 最新工作流“ipadapter_advanced.json”的方法:

    • 工作流中 controlnet 模型(简称“cn”)用来控制 ipadapter 生成的图片。
    • 基于深度学习的重绘,例如将一张黑白素材图片和一张彩色风格图片进行风格迁移完成转绘。
    • 具体步骤包括创建节点加载图片、读取所需风格的图片作为参考图、将图像用蓝色的线连接到 cn 应用(通过 cn 的深度学习模型,如 SDxl 版本)、对要生成的图片进行填写提示词等。

相关资源:作者为 b 站 up 坏心眼猫特效,工作流和模型可参考:https://pan.quark.cn/s/2d0c9a5a9d34

Content generated by AI large model, please carefully verify (powered by aily)

References

1-ipa工作流用法

由于该部分的生成效果一般,便不予以展开讲述,下面会介绍一些流程:将图像用蓝色的线连接到cn应用如图所示,由于是线稿模型,对于的cn模型可以采用深度学习的模型(个人感觉效果更佳),也可以采用“adapter-xl-lineart-fp16.safetensors”线稿模型。对应的生成图片即可。

星流一站式 AI 设计工具

1.使用图像控制功能,如空间关系、线稿、人物长相、姿势等,来精准控制生成图像的内容和风格。2.入门模式只能使用以下四种参考功能1.全部图片参考功能|原图|景深|线稿轮廓|姿势|Lineart线稿|Scribble线稿|光影|Segmant构图分割||-|-|-|-|-|-|-|-|||将参考图像转化为深度图,控制人物与背景的纵深关系|将参考图像转化为线稿,控制后续图像生成的轮廓|根据参考的图像生成骨骼图,控制后续图像的姿势。|与线稿轮廓相比更加专业,多可用于漫画领域|将输入图像转换为涂鸦或草图风格,以涂鸦/草图为引导生成新的图像。|根据参考图像光影信息,生成类似的光影效果的图像|对图像进行语义分割,将图像中的不同物体或区域进行分类标记,有助于有针对性地对特定区域进行编辑或生成|||||||||||原图|SoftEdge线稿|配色参考|配色打乱|法线贴图|MLSD线稿||-|-|-|-|-|-|||与线稿轮廓相比,产生较为柔和的边缘效果,使图像的过渡更加自然。|实现图像的颜色迁移,将参考图像的颜色风格应用到新生成的图像上|打乱图像的色彩方案,对图像进行重新上色|表现物体表面的细节和光照效果,可增强图像的真实感|检测图像中的直线,可用于强调图像中的线性结构或进行基于直线的图像编辑||||||||

1-ipa工作流用法

我将基于ipadapter(简称“ipa”)最新工作流“ipadapter_advanced.json”工作流给大家进行展示。工作流中controlnet模型(简称“cn”)用来控制ipa生成的图片。作者:b站up坏心眼猫特效,工作流和模型:[https://pan.quark.cn/s/2d0c9a5a9d34](https://pan.quark.cn/s/2d0c9a5a9d34)预处理器网络模型的总览如下图:ipa+cn的总实现框架如下图:[heading2]1.1基于深度学习的重绘[content]1.1.1将一张黑白素材图片和一张彩色风格图片进行风格迁移完成转绘。黑色图片如上,彩色片如下。最终生成的图片如下图,可以很清楚的看到,原来的黑白素材图片得到了风格上赋能。也可以生成的四张图片如下图:补充:可以生成四张(选择下图右边进行与K采样器的latent连接),也可以生成一张(选择左边)[heading3]1.1.2步骤及解析[content](1)首先先创建节点加载图片:(2)其次读取一张所需风格的图片作为参考图。(3)将图像用蓝色的线连接到cn应用如图所示,即通过cn的深度学习模型(SDxl版本,因为checkpoint大模型用的是SDxl版本)。因为采用的是Zoe深度预处理器。(4)对要生成的图片进行填写提示词。正向提示词:illustration of clouds and meadows and mountains and trees,calm,executable,high quality(5)生成(添加到提示词队列)

Others are asking
照片转线稿
以下是关于照片转线稿的相关信息: 教程:线稿上色 Midjourney + Stable Diffusion sd 上色: 正关键词:主要前面添加了增加照片质感常用的 + mj 生成线稿的关键词调整(去掉 mj 里线稿的关键词,一开始嘴巴效果不好,添加了张开嘴巴等关键词,颜色都是可以单独调整控制)+ 风格参数。 负关键词:看自己的效果添加。添加一切您不想要的东西,前面调用了词嵌入(bad_prompt_version2neg, badhandv4, easynegative)需要去 c 站下载,这些主要是为了控制人手部错误的,在最后一步放大的时候,却起到了反作用,强行给小猫咪小动物 5 个手指(建议不加,或者建议生成的时候加,放大的时候去掉)。 正关键词示例:, CG, unity, official art, amazing, finely detail, an extremely delicate and beautiful, extremely detailed, 3d, rendering, c4d, blender, octane render, Chinese festive color scheme, open mouth, 1 tooth, The cat has a pair of white gloves, a cute cat cartoon IP character, black line sketch, wearing a hat, wearing a collar around the neck, carrying a huge red bag, matching rope and straps at his wrists, Chinese element style, poular toys, blind box toys, Disney style。 负关键词示例:back and white, green, blue, purple。 真实系大模型:revAnimated v1.2.2 版本。 尺寸:最好和您的草稿图保持一致(前面的步骤没有截图。这里重新做了一张)如果尺寸太大爆显存可以保持和草图一样的比例缩小尺寸。 最重要的 ControlNet 设置:上传自己的草图到 ControlNet,点击启用。记得点?的图标让预处理器生效。 摊位信息: AI 3D 打印纹身印章:通过 AI 将图片转绘成简约线条插画风格,然后现场 3D 打印出来,最终交付定制化的纹身印章产品。具体流程:适用 comfyui 工作流生成 + 输出线稿素材;将线稿生成模型文件;输入 3D 打印机,输出定制图案模型(预计打印时间 3 5 分钟)。印章图案为软性材料,印章颜料为可水洗安全材料,可另选半永久植物染料。摊位区域为 E,摊位编号为 69,摊位类型为 3D 印章。 星流一站式 AI 设计工具: 右侧生成器入门模式图片参考: 全部图片参考功能:原图、景深、线稿轮廓、姿势、Lineart 线稿、Scribble 线稿、光影、Segmant 构图分割。 其他参考功能:SoftEdge 线稿、配色参考、配色打乱、法线贴图、MLSD 线稿。
2025-02-20
图像翻译
图像翻译具有以下特点和功能: 多语言支持:涵盖 18 种语言,包括中文、英文、法语、日语、韩语和西班牙语。 保护图像主体:可选择不翻译品牌名称或重要信息,避免影响关键内容。 高分辨率处理:支持高达 4000×4000 像素的图像,确保翻译后画质清晰。 原始排版恢复:保留原字体、大小及对齐方式,确保设计一致性。 多行文本合并:将多行文本合并为段落翻译,避免逐行翻译造成误解。 清除文本痕迹:翻译后干净移除原文本,并恢复图像空白区域。
2025-04-14
gpt4o图像生成提示词有哪些
以下是一些 GPT4o 图像生成的提示词示例: 1. 将这张图更改为蓝色氛围,星星图标改为魔法棒图标,同时将里面文案描述的主题改为其他的。 2. 帮我生成一张这样的 UI 设计稿:Peerlist 邀请链接界面分析,界面内容。 3. 一张逼真的照片,描绘了一匹马在宁静的海洋表面从右向左奔驰,准确地描绘了飞溅的水花。 Realistic photograph of a horse galloping from right to left across a vast,calm ocean surface,accurately depicting splashes,reflections,and subtle ripple patterns beneath their hooves.Exaggerate horse movements but everything else should be still,quiet to show contrast with the horse's strength.clean composition,cinematographic.A wide,panoramic composition showcasing a distant horizon.Atmospheric perspective creating depth.zoomed out so the horse appears minuscule compared to vast ocean.horse is right at the horizon where ocean meets sky.use rule of thirds to position horse.size of horse is 1% size of entire image because camera is so far away from subject.camera view is super close to the ground/ocean like a worm's eye view.horse is galloping right where ocean meets the sky 4. 生成一张 2006 年夏天的周六多伦多农夫市场的逼真照片,那天是六月的美好时光,人们在购物和吃三明治。焦点应是一个穿着牛仔工装裤、啜饮草莓香蕉奶昔的年轻亚洲女孩——其余部分可以模糊。照片应让人联想到 2006 年的数码相机拍摄的效果,带有像打印照片一样的日期和时间戳。画幅比例应为 3:2
2025-04-11
图像识别模型
图像识别模型通常包括编码器和解码器部分。以创建图像描述模型为例: 编码器:如使用 inception resnet V2 应用于图像数据,且大部分情况下会冻结此 CNN 的大部分部分,因为其骨干通常是预训练的,例如通过庞大的数据集如图像网络数据集进行预训练。若想再次微调训练也是可行的,但有时仅需保留预训练的权重。 解码器:较为复杂,包含很多关于注意力层的说明,还包括嵌入层、GRU 层、注意力层、添加层归一化层和最终的密集层等。 在定义好解码器和编码器后,创建最终的 TF Keras 模型并定义输入和输出。模型输入通常包括图像输入进入编码器,文字输入进入解码器,输出则为解码器输出。在运行训练前,还需定义损失功能。 另外,还有一些相关模型的安装配置,如 siglipso400mpatch14384(视觉模型),由 Google 开发,负责理解和编码图像内容,其工作流程包括接收输入图像、分析图像的视觉内容并将其编码成特征向量。image_adapter.pt(适配器)连接视觉模型和语言模型,优化数据转换。MetaLlama3.18Bbnb4bit(语言模型)负责生成文本描述。
2025-03-28
gpt4o图像生成
GPT4o 是 OpenAI 推出的具有强大图像生成能力的多模态模型,能够实现精确、准确、照片级真实感输出。其核心功能包括生成美观且实用的图像,如白板演示、科学实验图解等。亮点功能有精确的文本渲染,能在图像中准确生成文字,如街道标志、菜单、邀请函等;支持多样化场景生成,从照片级真实感到漫画风格均可;具有上下文感知能力,能利用内在知识库和对话上下文生成符合语境的内容。技术上通过联合训练在线图像和文本的分布,学会了图像与语言及图像之间的关系,经过后期训练优化,在视觉流畅性和一致性方面表现出色。实际应用场景包括信息传递、创意设计、教育与演示等。但也存在某些场景或细节的限制。安全性方面,OpenAI 强调了保护。目前该功能已集成到 ChatGPT 中,用户可直接体验。 此外,在 3 月 26 日的 AI 资讯汇总中,OpenAI 推出了 GPT4o 图像生成能力。昨晚 Open AI 更新 GPT4o 图像生成功能后,其真正强大之处在于几乎可以通过自然语言对话完成复杂的 SD 图像生成工作流的所有玩法,如重新打光、扩图、换脸、融脸、风格化、风格迁移、换装、换发型等。
2025-03-28
免费增强图像分辨率的
以下是一些免费增强图像分辨率的工具和方法: 1. Kraken.io:主要用于图像压缩,但也提供免费的图像放大功能,能保证图像细节清晰度。 2. Deep Art Effects:强大的艺术效果编辑器,通过 AI 技术放大图像并赋予艺术效果,支持多种滤镜和风格。 3. Waifu2x:提供图片放大和降噪功能,使用深度学习技术提高图像质量,保留细节和纹理,简单易用效果好。 4. Bigjpg:强大的图像分辨率增强工具,使用神经网络算法加大图像尺寸,提高图像质量,处理速度快。 此外,还有以下相关资源: 1. 【超级会员 V6】通过百度网盘分享的 Topaz 全家桶,链接:https://pan.baidu.com/s/1bL4tGfl2nD6leugFh4jg9Q?pwd=16d1 ,提取码:16d1 ,复制这段内容打开「百度网盘 APP 即可获取」。 2. RealESRGAN:基于 RealESRGAN 的图像超分辨率增强模型,具有可选的人脸修复和可调节的放大倍数,但使用几次后要收费。 3. InvSR:开源图像超分辨率模型,提升图像分辨率的开源新工具,只需一个采样步骤(支持 1 5 的材料步骤)即可增强图像,可以高清修复图像。地址、在线试用地址:https://github.com/zsyOAOA/InvSR?tab=readme ov filerailway_car online demo 、https://huggingface.co/spaces/OAOA/InvSR 。 4. GIGAGAN:https://mingukkang.github.io/GigaGAN/ 。 5. Topaz Gigapixel AI:https://www.topazlabs.com/gigapixel ai 。 6. Topaz Photo AI:https://www.topazlabs.com/ 。 7. discord:https://discord.gg/m5wPDgkaWP 。
2025-03-24
图像生成
图像生成是 AIGC 的一个重要领域,离不开深度学习算法,如生成对抗网络(GANs)、变分自编码器(VAEs)以及 Stable Diffusion 等,以创建与现实世界图像视觉相似的新图像。 图像生成可用于多种场景,如数据增强以提高机器学习模型的性能,也可用于创造艺术、生成产品图像(如艺术作品、虚拟现实场景或图像修复等)。 一些具有代表性的海外项目包括: Stable Diffusion:文本生成图像模型,主要由 VAE、UNet 网络和 CLIP 文本编码器组成。首先使用 CLIP 模型将文本转换为表征形式,然后引导扩散模型 UNet 在低维表征上进行扩散,之后将扩散之后的低维表征送入 VAE 中的解码器,从而实现图像生成。 DALLE 3(Open AI):OpenAI 基于 ChatGPT 构建的一种新型神经网络,可以从文字说明直接生成图像。 StyleGAN 2(NVIDIA):一种生成对抗网络,可以生成非常逼真的人脸图像。 DCGAN(Deep Convolutional GAN):一种使用卷积神经网络的生成对抗网络,可生成各种类型的图像。 在图像生成的用法方面,图像生成端点允许您在给定文本提示的情况下创建原始图像。生成的图像的大小可以为 256x256、512x512 或 1024x1024 像素。较小的尺寸生成速度更快。您可以使用 n 参数一次请求 1 10 张图像。描述越详细,就越有可能获得您或您的最终用户想要的结果。您可以探索 DALL·E 预览应用程序中的示例以获得更多提示灵感。 图像编辑端点允许您通过上传蒙版来编辑和扩展图像。遮罩的透明区域指示应编辑图像的位置,提示应描述完整的新图像,而不仅仅是擦除区域。 AI 绘图 Imagen 3 具有以下功能点和优势: 功能点: 图像生成:根据用户输入的 Prompt 生成图像。 Prompt 智能拆解:能够自动拆解用户输入的 Prompt,并提供下拉框选项。 自动联想:提供自动联想功能,帮助用户选择更合适的词汇。 优势: 无需排队:用户可以直接使用,无需排队。 免费使用:目前 Imagen 3 是免费提供给用户使用的。 交互人性化:提供了人性化的交互设计,如自动联想和下拉框选项。 语义理解:具有较好的语义理解能力,能够根据 Prompt 生成符合描述的图像。 灵活性:用户可以根据自动联想的功能,灵活调整 Prompt 以生成不同的图像。
2025-03-23