Chat with Wiki - 文生图模型打分的排行榜

Answer

以下是关于文生图模型打分的排行榜相关信息：

SuperCLUE-Image 测评基准首次公布，DALL-E 3 以 76.94 分高居榜首，显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLM-Art 位列国内前列，但与国际领先模型仍有差距。
在包含人工评估、机器评估的全面评测中，Kolors 具有非常有竞争力的表现，达到业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。
- 人工评测方面，邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平，其中画面质量显著领先其他模型。具体平均分如下：
  - Adobe-Firefly：整体满意度平均分 3.03，画面质量平均分 3.46，图文相关性平均分 3.84。
  - Stable Diffusion 3：整体满意度平均分 3.26，画面质量平均分 3.5，图文相关性平均分 4.2。
  - DALL-E 3：整体满意度平均分 3.32，画面质量平均分 3.54，图文相关性平均分 4.22。
  - Midjourney-v5：整体满意度平均分 3.32，画面质量平均分 3.68，图文相关性平均分 4.02。
  - Playground-v2.5：整体满意度平均分 3.37，画面质量平均分 3.73，图文相关性平均分 4.04。
  - Midjourney-v6：整体满意度平均分 3.58，画面质量平均分 3.92，图文相关性平均分 4.18。
  - Kolors：整体满意度平均分 3.59，画面质量平均分 3.99，图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。

Content generated by AI large model, please carefully verify (powered by aily)

References

Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看，改进也是很全面的，更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力，以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了，实测效果也确实很不错。在看到Kling视频生成的强大表现，不得不让人赞叹快手的技术实力。

2024 年历史更新（归档）

《[探讨大模型未来：从Scaling Law到数据红利再到终极Token工厂](https://mp.weixin.qq.com/s/aoyqyAgOIfd3TW5QCewONw)》作者祝威廉，文章探讨了大模型的未来，包括规模化法则（Scaling Law）、数据红利和Token工厂概念。指出大模型发展受限于算力成本，数据红利尚未充分利用，最终目标是构建高效的Token生产体系。《[【AI学习笔记】小白如何理解技术原理与建立框架（通俗易懂内容推荐）](https://waytoagi.feishu.cn/wiki/JKORwNJdfiB0J7kI9PucCoWcn3d)》《[智变时代/全面理解机器智能与生成式AI加速的新工业革命](https://mp.weixin.qq.com/s/vQVXlfqbn8lDW9P6uLmppw)》Indigo的雄文，时隔一年半，他用这篇《智变时代》来温故下AI领域波澜壮阔的一年，尝试抓住生成式AI变革的本质，带大家拨开喧嚣与迷雾，追寻科技巨头与AI机构们在更高智能道路上的探索，以及变革会如何全面改变人机交互、世界的产业、经济还有我们自己……《[文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分](https://mp.weixin.qq.com/s/XWaNljbcs-1qd-nkqUJayg)》SuperCLUE-Image测评基准首次公布，DALL-E 3以76.94分高居榜首，显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和vivo的BlueLM-Art位列国内前列，但与国际领先模型仍有差距。

延伸阅读

为了全面比较Kolors与其他模型的生成能力，我们构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中，Kolors具有非常有竞争力的表现，达到业界领先水平。我们构建了一个包含14种垂类，12个挑战项，总数量为一千多个prompt的文生图评估集KolorsPrompts。在KolorsPrompts上，我们收集了Kolors与市面上常见的SOTA级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。[heading3]人工评测[content]我们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，为生成图像打分，衡量维度为：画面质量、图文相关性、整体满意度三个方面。Kolors在整体满意度方面处于最优水平，其中画面质量显著领先其他模型。|模型|整体满意度平均分|画面质量平均分|图文相关性平均分||-|-|-|-||Adobe-Firefly|3.03|3.46|3.84||Stable Diffusion 3|3.26|3.5|4.2||DALL-E 3|3.32|3.54|4.22||Midjourney-v5|3.32|3.68|4.02||Playground-v2.5|3.37|3.73|4.04||Midjourney-v6|3.58|3.92|4.18||Kolors|3.59|3.99|4.17|所有模型结果取自2024.04的产品版本