Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

要想写实,需哪些模型

Answer

写实风格的图片绘制需要考虑以下几个方面:

  1. 模型选择:可以选择麦橘、墨幽等模型大佬的系列模型,如麦橘写实、麦橘男团、墨幽人造人等,这些模型在生成写实风格的图片方面表现出色。
  2. lora 选择:lora 可以帮助控制图片效果及质量。可以多看看广场上做得好看的帖子,了解他们使用的lora。
  3. 提示词设置:使用英文写提示词,用单词和短语的组合去表达需求,单词、短语之间用英文半角逗号隔开。同时,可以使用负向提示词来避免产生不想要的内容。
  4. 其他设置:如 VAE、CLIP 跳过层等,可以根据需求进行调整。

总的来说,写实风格的图片绘制需要综合考虑模型、lora、提示词等多个因素,并进行不断地尝试和调整,以达到满意的效果。

Content generated by AI large model, please carefully verify (powered by aily)

References

小田:视频转绘制作视频过程中不可或缺的一环

这里因为我们做的是美女相关的,所以我直接推荐你使用麦?的写实模型和墨幽人造人这两个模型具体下载地址如下:这里提示词不推荐使用质量词因为本来这两个模型里面的出图质量就很高了,而且本身就是写实的模型所以加了反而会影响整体的画面。这里我们要记住我们的核心是美女。我们只需要保证她的脸好看就行了。所以提示词我推荐你先使用反推,Deepbooru。然后借助提示词插件删除一些没有用的提示词尽量只保留和画面主体相关的提示词就可以了。主要受人物主体描述+皮肤质感增强+整体细节增强的Loar就可以了https://www.liblib.art/modelinfo/73f99b12a74b4519bec1ccbaca78f0a8(皮肤质感)提示词可以参考我这个,具体还是要看你个人实践。正向提示词:1girl,solo,black_hair,midriff,autolinklora:林鹤-皮肤质感调整器-差异炼丹功能性lora模型_林鹤v1:0.6autolink,负向提示词:NSFW,logo,text,blurry,low quality,bad anatomy,说一下为啥要使用皮肤类型的Lora,因为很多的小姐姐就是你原本的素材磨皮太严重了。。就像旁边这张图一样皮肤都没什么质感了。

Tusiart简易上手教程

1.定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。2.选择基础模型Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。3.选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。4.ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。5.局部重绘:下篇再教,这里不急。6.设置VAE:无脑选择前面提到的840000这个即可。7.Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。

Liblibai简易上手教程

1.定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。(没错我是喜欢看plmm多点)2.选择Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。3.选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。4.设置VAE:无脑选840000那一串就行。5.CLIP跳过层:设成2就行。6.Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。7.负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。

Others are asking
我想用gpt4写实习契约,想让它写的有水平一些,该怎么办
以下是一些利用 GPT4 写有水平实习契约的建议: 1. 先确定实习契约的大纲目录,可以参考老师提供的示例或相关模板,也可以用手机识别截图获取。 2. 明确整体的语言风格和特色,比如要求逻辑清晰、层层递进、条理分明。您可以把范文提供给类似 Claude 2 的工具,让其总结语言风格。 3. 详细描述实习契约的各项条款,包括实习的时间、地点、职责、报酬、保密条款等。 4. 注意语言表达的准确性和规范性,避免模糊不清或产生歧义的表述。 需要注意的是,GPT4 有时会产生语法无效或语义不正确的内容,您需要仔细检查和修改。
2024-11-22
我想改变一个图片的风格,要区别于一般的滤镜,例如写实照片变成3D模型的
目前知识库中没有关于将写实照片转变为 3D 模型风格的具体方法和相关内容。但一般来说,要实现这种效果可能需要使用专业的图像处理软件,如 Adobe Photoshop、Blender 等。在这些软件中,可能会涉及到一些复杂的操作,例如建模、材质设置、光照调整等。您也可以尝试使用一些在线的 AI 图像处理工具,部分工具可能具备将照片转换为 3D 风格的功能。不过具体的效果和操作方式可能因工具而异。
2024-08-17
麦橘写实v7
麦橘写实 V7 是由 majicMIX 系列作者开发的 AI 模型,真实系模型世界排名第一。该模型在各大模型平台全面上线,可在 C 站、吐司和 liblib.ai 等平台上下载。V7 模型的发布引起了广泛的关注,许多插画师和设计师都对其进行了试用和评价。 宗 rich 是一位资深游戏美术和神级插画师,他在抖音上分享了自己使用麦橘写实 V7 模型创作的作品。这些作品细节拉满,让人惊叹不已。他的创作过程和心得也在文章中进行了介绍,让读者更好地了解了麦橘写实 V7 模型的特点和应用场景。 此外,文章还介绍了麦橘写实 V7 模型的主题创作活动,鼓励读者一起参与创作,展示自己的才华和创意。同时,文章也提供了麦橘写实 V7 模型的返图欣赏,让读者可以更好地了解该模型的创作效果和应用前景。 总的来说,麦橘写实 V7 是一款非常优秀的 AI 模型,具有很高的真实度和表现力。它的发布为插画师和设计师提供了更多的创作工具和灵感,也为 AI 绘画的发展注入了新的活力。
2024-06-06
Dall·E照片级写实风格提示词
以下是一些可以尝试在 DALLE 中使用的提示词,来生成照片级的写实风格图像: 1. "一张拥有极高分辨率和令人惊艳的细节的照片..." 2. "拍摄于自然光线下,无滤镜,无修饰的写实..." 3. "使用高端相机和镜头拍摄的,能看到每一个毛孔的超高分辨率..." 4. "逼真到仿佛能从画面中嗅到气味的写实风格..." 5. "照片般的写实效果,清晰可见皱纹、纹理和细微表情..." 6. "令人难以区分真实照片与渲染图像的无与伦比的写实画面..." 7. "展现出 的肌肤质感、织物褶皱和光线细节..." 8. "使用热成像相机和光学变焦镜头拍摄的近乎真实的..." 9. "胶片级细节,颗粒感和动态光比的顶尖图像..." 10. "具备媲美 artsation.com 摄影作品般的逼真写实效果..." 这些提示词都强调了写实、细节、分辨率、真实感等关键词,有助于 DALLE 生成出照片般的高分辨率写实图像。你也可以继续探索其他组合,找到最佳的提示方式。
2024-04-18
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14