Chat with Wiki - 给文生图ai模型打分的权威标准是什么

Answer

给文生图 AI 模型打分的权威标准通常包括以下方面：

图像生成质量：如清晰度、细节丰富程度、色彩准确性等。
多样性：生成图像的风格、主题和表现形式的丰富程度。
文本一致性：生成的图像与输入的文本描述的匹配程度。

在具体的测评中，会构建包含人工评估和机器评估的全面评测内容。人工评测方面，会邀请具有图像领域知识的专业评估人员，从画面质量、图文相关性、整体满意度等维度为生成图像打分。例如，在对 Kolors 与其他模型的比较中，就从这些维度进行了评估。

此外，像 SuperCLUE-Image 测评基准首次公布的结果中，DALL-E 3 以 76.94 分高居榜首，显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLM-Art 位列国内前列，但与国际领先模型仍有差距。

Content generated by AI large model, please carefully verify (powered by aily)

References

2024 年历史更新（归档）

《[探讨大模型未来：从Scaling Law到数据红利再到终极Token工厂](https://mp.weixin.qq.com/s/aoyqyAgOIfd3TW5QCewONw)》作者祝威廉，文章探讨了大模型的未来，包括规模化法则（Scaling Law）、数据红利和Token工厂概念。指出大模型发展受限于算力成本，数据红利尚未充分利用，最终目标是构建高效的Token生产体系。《[【AI学习笔记】小白如何理解技术原理与建立框架（通俗易懂内容推荐）](https://waytoagi.feishu.cn/wiki/JKORwNJdfiB0J7kI9PucCoWcn3d)》《[智变时代/全面理解机器智能与生成式AI加速的新工业革命](https://mp.weixin.qq.com/s/vQVXlfqbn8lDW9P6uLmppw)》Indigo的雄文，时隔一年半，他用这篇《智变时代》来温故下AI领域波澜壮阔的一年，尝试抓住生成式AI变革的本质，带大家拨开喧嚣与迷雾，追寻科技巨头与AI机构们在更高智能道路上的探索，以及变革会如何全面改变人机交互、世界的产业、经济还有我们自己……《[文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分](https://mp.weixin.qq.com/s/XWaNljbcs-1qd-nkqUJayg)》SuperCLUE-Image测评基准首次公布，DALL-E 3以76.94分高居榜首，显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和vivo的BlueLM-Art位列国内前列，但与国际领先模型仍有差距。

延伸阅读

为了全面比较Kolors与其他模型的生成能力，我们构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中，Kolors具有非常有竞争力的表现，达到业界领先水平。我们构建了一个包含14种垂类，12个挑战项，总数量为一千多个prompt的文生图评估集KolorsPrompts。在KolorsPrompts上，我们收集了Kolors与市面上常见的SOTA级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。[heading3]人工评测[content]我们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，为生成图像打分，衡量维度为：画面质量、图文相关性、整体满意度三个方面。Kolors在整体满意度方面处于最优水平，其中画面质量显著领先其他模型。|模型|整体满意度平均分|画面质量平均分|图文相关性平均分||-|-|-|-||Adobe-Firefly|3.03|3.46|3.84||Stable Diffusion 3|3.26|3.5|4.2||DALL-E 3|3.32|3.54|4.22||Midjourney-v5|3.32|3.68|4.02||Playground-v2.5|3.37|3.73|4.04||Midjourney-v6|3.58|3.92|4.18||Kolors|3.59|3.99|4.17|所有模型结果取自2024.04的产品版本

模型能力简介

Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看，改进也是很全面的，更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力，以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了，实测效果也确实很不错。在看到Kling视频生成的强大表现，不得不让人赞叹快手的技术实力。