Home/Question List/Question Detail

现在哪个应用文生图的效果最好？

Answer

目前在应用文生图方面，以下几个模型效果较好：

DALL·E 3：与当前最流行的文生图应用 Midjourney 相比能打个平手甚至超越，使用门槛较低，不需要用户掌握复杂的 Prompt 编写知识，且已正式上线 ChatGPT，Plus 用户和 Enterprise 用户都可以使用。
Imagen 3：真实感满分，指令遵从强。
Recraft：真实感强，风格泛化很好，指令遵从较好（会受风格影响）。

但不同模型也有各自的特点和不足，例如：

Midjourney：风格化强，艺术感在线，但会失真，指令遵从较差。
快手可图：影视场景能用，风格化较差。
Flux.1.1[Pro]：真实感强，需要搭配 Lora 使用。
文生图大模型 V2.1L（美感版）：影视感强，但会有点油腻，细节不够，容易糊脸。
Luma：影视感强，但风格单一，糊。
美图奇想 5.0：AI 油腻感重。
腾讯混元：AI 油腻感重，影视感弱，空间结构不准。
SD 3.5 Large：崩。

您可以根据具体需求和使用体验选择适合的模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

DALL·E 3论文公布、上线ChatGPT，作者一半是华人

即使与当前最流行的文生图应用Midjourney相比，DALL・E 3也能打个平手甚至超越Midjourney。而且与Midjourney相比，DALL・E 3不需要用户自己掌握复杂的Prompt编写知识，使用起来门槛更低。DALL・E 3 vs.Midjourney文生图效果。prompt：这幅插画描绘了一颗由半透明玻璃制成的人心，矗立在惊涛骇浪中的基座上。一缕阳光穿透云层，照亮了心脏，揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字「Find the universe within you」。这一模型的发布引发了不小的轰动，也再次巩固了OpenAI技术领头羊的形象。一时间，所有人都很好奇，这么炸裂的效果是怎么做到的？不过，令人失望的是，当时OpenAI并没有透露技术细节，就像之前发布GPT-4时一样。不过，一个月后，OpenAI还是给了大家一些惊喜。在一份篇幅达22页的论文中，他们阐述了针对DALL・E 3所做的改进。论文要点包括：模型能力的提升主要来自于详尽的图像文本描述（image captioning）；他们训练了一个图像文本描述模型来生成简短而详尽的文本；他们使用了T5文本编码器；他们使用了GPT-4来完善用户写出的简短提示；他们训练了一个U-net解码器，并将其蒸馏成2个去噪步骤；文本渲染仍然不可靠，他们认为该模型很难将单词token映射为图像中的字母除了论文之外，OpenAI还公布了一个重要消息：DALL・E 3已经正式上线ChatGPT，Plus用户和Enterprise用户都可以使用。以下是机器之心的试用效果：

Tusiart简易上手教程

定主题：你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint：按照你需要的主题，找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型，比如说麦橘写实、麦橘男团、墨幽人造人等等，效果拔群。选择lora：在你想要生成的内容基础上，寻找内容重叠的lora，帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面，他们都在用什么lora。ControlNet：控制图片中一些特定的图像，可以用于控制人物姿态，或者是生成特定文字、艺术化二维码等等。也是高阶技能，后面再学不迟。局部重绘：下篇再教，这里不急。设置VAE：无脑选择前面提到的840000这个即可。Prompt提示词：用英文写你想要AI生成的内容，不用管语法也不要写长句，仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt：用英文写你想要AI避免产生的内容，也是一样不用管语法，只需单词和短语组合，中间用英文半角逗号隔开。采样算法：这玩意儿还挺复杂的，现在我一般选DPM++2M Karras比较多。当然，最稳妥的是留意checkpoint的详情页上，模型作者是否有推荐采样器，使用他们推荐的采样器会更有保障。采样次数：要根据你采样器的特征来，一般我选了DPM++2M Karras之后，采样次数在30~40之间，多了意义不大还慢，少了出图效果差。尺寸：看你喜欢，看你需求。

文生图

|排序（从高到低）|模型|特点（优缺）||-|-|-||1|Imagen 3|真实感满分，指令遵从强||2|Recraft|真实感强，风格泛化很好，指令遵从较好（会受风格影响）||3|Midjourney|风格化强，艺术感在线，但会失真，指令遵从较差||4|快手可图|影视场景能用，风格化较差||5|Flux.1.1[Pro]|真实感强，需要搭配Lora使用||6|文生图大模型V2.1L（美感版）|影视感强，但会有点油腻，细节不够，容易糊脸||7|Luma|影视感强，但风格单一，糊||8|美图奇想5.0|AI油腻感重||9|腾讯混元|AI油腻感重，影视感弱，空间结构不准||10|SD 3.5 Large|崩|

Others are asking

我想图生图，生成高清矢量图

2025-04-14

AI生图模型排名

以下是一些常见的 AI 生图模型排名（从高到低）： 1. Imagen 3：真实感满分，指令遵从强。 2. Recraft：真实感强，风格泛化很好，指令遵从较好（会受风格影响）。 3. Midjourney：风格化强，艺术感在线，但会失真，指令遵从较差。 4. 快手可图：影视场景能用，风格化较差。 5. Flux.1.1：真实感强，需要搭配 Lora 使用。 6. 文生图大模型 V2.1L（美感版）：影视感强，但会有点油腻，细节不够，容易糊脸。 7. Luma：影视感强，但风格单一，糊。 8. 美图奇想 5.0：AI 油腻感重。 9. 腾讯混元：AI 油腻感重，影视感弱，空间结构不准。 10. SD 3.5 Large：崩。此外，在相关的测评中：豆包模型在图生图方面效果良好，美感度较高，在中文模型中遥遥领先。 Request 模型自某种风格出圈后很火，在国外模型中表现出色，甚至超过了 Midjourney。 Luma 在图生图方面表现不错，曾是第一个有出色转场效果的模型，在本次评测中是一匹黑马。 Pixverse 在文生视频的评测中获胜率达 70%，表现出乎意料。 Midjourney 常用，但在本次评测中图生图的排行未居前列。

2025-04-14

2025-04-13

文生图

以下是关于文生图的简易上手教程： 1. 定主题：确定您需要生成的图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint：根据主题选择内容贴近的模型，如麦橘、墨幽的系列模型，如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora：在生成内容基础上，寻找重叠的 lora 以控制图片效果和质量，可参考广场上好看的帖子。 4. ControlNet：可控制图片中特定图像，如人物姿态、生成特定文字等，属于高阶技能。 5. 局部重绘：下篇再教。 6. 设置 VAE：无脑选择 840000 即可。 7. Prompt 提示词：用英文写想要 AI 生成的内容，使用单词和短语组合，用英文半角逗号隔开，不用管语法和长句。 8. 负向提示词 Negative Prompt：用英文写想要 AI 避免产生的内容，同样是单词和短语组合，用英文半角逗号隔开，不用管语法。 9. 采样算法：一般选 DPM++2M Karras 较多，也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数：选 DPM++2M Karras 时，采样次数一般在 30 40 之间。 11. 尺寸：根据个人喜好和需求选择。以下是一些常见的文生图工具和模型： 1. 腾讯混元 2. luma 3. Recraft 4. 文生图大模型 V2.1L（美感版） 5. 美图奇想 5.0 6. midjourney 7. 快手可图 8. Flux.1.1 9. Stable Diffusion 3.5 Large 10. Imagen 3 网页版

2025-04-12

文生图工具

2025-04-12