Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

国内免费ai的排行榜,要求详细信息简述

Answer

目前国内免费 AI 产品的排名情况会因不同的评估标准和时间而有所变化,暂时没有确切和权威的排行榜信息。但一些常见的免费 AI 工具和平台包括百度的文心一言、字节跳动的云雀模型等。这些工具在自然语言处理、图像识别等领域都有一定的应用和特点。您可以根据自己的具体需求和使用场景,对它们进行试用和比较。

Content generated by AI large model, please carefully verify (powered by aily)
Others are asking
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
设计一个图书管理系统的html,ajax异步查询id并展示图书的详细信息,包含图书封面图片,已有bookfindservlet,post请求
为了设计一个图书管理系统的HTML页面,并使用AJAX异步查询书籍ID并展示书籍的详细信息,包括封面图片,我们需要以下几个步骤: 1. 设计HTML页面 2. 编写AJAX请求 3. 处理AJAX响应并更新页面 假设我们已有一个名为`BookFindServlet`的后端服务,它接受POST请求并返回JSON格式的书籍详细信息。 1. 设计HTML页面 ```html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF8"> <meta name="viewport" content="width=devicewidth, initialscale=1.0"> <title>Book Management System</title> <style> body { fontfamily: Arial, sansserif; margin: 20px; } bookdetails { margintop: 20px; display: none; } bookdetails img { maxwidth: 200px; display: block; marginbottom: 10px; } </style> </head> <body> <h1>Book Management System</h1> <label for="bookid">Enter Book ID:</label> <input type="text" id="bookid" name="bookid"> <button onclick="fetchBookDetails">Search</button> <div id="bookdetails"> <h2>Book Details</h2> <img id="bookcover" src="" alt="Book Cover"> <p><strong>Title:</strong> <span id="booktitle"></span></p> <p><strong>Author:</strong> <span id="bookauthor"></span></p> <p><strong>Description:</strong> <span id="bookdescription"></span></p> </div> <script> function fetchBookDetails { const bookId = document.getElementById.value; const xhr = new XMLHttpRequest; xhr.open; xhr.setRequestHeader; xhr.onreadystatechange = function { if { const response = JSON.parse; if { document.getElementById.src = response.coverImage; document.getElementById.innerText = response.title; document.getElementById.innerText = response.author; document.getElementById.innerText = response.description; document.getElementById.style.display = 'block'; } else { alert; document.getElementById.style.display = 'none'; } } }; xhr.send; } </script> </body> </html> ``` 2. 编写AJAX请求 在上面的HTML文件中,`fetchBookDetails`函数使用`XMLHttpRequest`来发送AJAX请求。这些步骤详细解释如下: 1. 获取用户输入的书籍ID:从输入框中读取用户输入的书籍ID。 2. 创建并配置XMLHttpRequest对象:使用`POST`方法向`BookFindServlet`发送请求,并设置请求头以指示发送的内容类型。 3. 处理响应: 如果请求成功(即状态码为200),解析JSON响应。 更新页面上的元素以显示书籍的详细信息(如封面图片、书名、作者和描述)。 3. 处理AJAX响应并更新页面 响应处理部分的JavaScript代码如下: ```javascript xhr.onreadystatechange = function { if { const response = JSON.parse; if { document.getElementById.src = response.coverImage; document.getElementById.innerText = response.title; document.getElementById.innerText = response.author; document.getElementById.innerText = response.description; document.getElementById.style.display = 'block'; } else { alert; document.getElementById.style.display = 'none'; } } }; ``` 总结 通过上述步骤,我们创建了一个简单的图书管理系统HTML页面,使用AJAX向后端服务发送查询请求,并在收到响应后动态更新页面内容。这种方法使用户能够在不刷新页面的情况下查看书籍的详细信息,提高了用户体验和系统的交互性。
2024-05-22
简述manus的原理
Manus 是一款由中国团队研发的全球首款通用型 AI 代理工具,于 2025 年 3 月 5 日正式发布。 其原理包括以下方面: 1. 技术架构: 基于多智能体(Multiple Agent)架构,运行在独立的虚拟机中。 核心功能由多个独立模型共同完成,分别专注于不同的任务或领域,如自然语言处理、数据分析、推理等。 关键组件包括虚拟机、计算资源、生成物、内置多个 agents 等。 采用“少结构,多智能体”的设计哲学,在数据质量高、模型强大、架构灵活的情况下,自然涌现 AI 的能力。 2. 工作流程: 意图识别:从用户输入中提取关键词和任务类型,引导用户补充信息以明确需求。 任务初始化:创建任务文件夹并启动隔离环境(Docker 容器),为任务执行提供独立的运行空间。 步骤规划:利用推理模型将任务拆解为具体步骤,将步骤信息写入 todo.md 文件进行跟踪。 任务执行:通过 function call 调度专用智能体执行具体任务,各智能体将执行结果写入任务文件夹,主线程负责更新任务状态并调度下一步骤。 归纳整理:汇总所有执行结果并针对用户需求整理输出,提供任务产物(文档/代码/图片等)供用户浏览或下载,收集用户反馈。 3. 专用智能体设计: Search Agent:调用搜索 API 获取结果列表,使用无头浏览器模拟网页浏览行为,结合多模态模型提取有效信息,通过点击和滚动操作获取更多内容。 Code/DataAnalysis Agent:根据需求创建并执行代码,保存执行结果,提供预览功能。 Manus 还存在一些改进空间,如使用 DAG 替代线性任务依赖关系、引入自动化测试智能体进行质量控制、实现用户介入与自动执行的混合模式。在技术评估方面,工程实现完善,交互体验优于同类产品,但技术壁垒不高,主要依赖模型能力,Token 消耗较高,成本问题需要解决,任务准确性和用户满意度有待更多案例验证。 当前的 Manus 约等于 AI 操纵着一个没有图形界面的 Linux 虚拟机和浏览器,能感知电脑环境,执行各类操作,如跑各种 linux 下的指令、库、程序(cd、ls 指令、python 等),访问各种网页、获取一些 API 接口的数据,但因无图形界面,无法运行图形程序。访问网页时,阻挠人类使用的各种要素也会打扰到 Manus。Manus 提供了用户可视的命令行视窗、浏览器、vscode 两种选项,方便查看运行指令、接管网页和修改文件。用户还可给 Manus 上传文件,未来也可能对接私有 API。
2025-03-19
简述一下什么是ai
AI(人工智能)是一门令人兴奋的科学,它是指让计算机表现出智能行为,例如做一些人类所擅长的事情。 对于没有理工科背景的文科生来说,可以把 AI 当成一个黑箱,只需要知道它是某种能模仿人类思维、理解自然语言并输出自然语言的东西。其生态位是一种似人而非人的存在。 对于三年级的孩子,可以用简单的语言来解释,即让计算机或机器能像人类一样思考和学习的技术。 在某些任务中,如根据照片判断一个人的年龄,由于我们无法明确大脑完成此任务的具体步骤,所以无法为计算机编写明确程序,而这类任务正是 AI 所感兴趣的。
2024-11-15
简述一下什么是AI
AI 是一门令人兴奋的科学,是某种模仿人类思维可以理解自然语言并输出自然语言的东西。 对于不具备理工科背景的人来说,可以把 AI 当成一个黑箱,只需要知道它能理解自然语言并输出自然语言即可。其生态位是一种似人而非人的存在。 最初,计算机是按照明确的程序和算法进行数字运算。但对于像“根据照片判断一个人的年龄”这类任务,无法明确编程步骤,而这正是 AI 感兴趣的。 对于三年级的孩子,可以简单理解为让计算机或机器能像人类一样思考和学习的技术。
2024-11-14
最新的AI排行榜
以下是最新的 AI 排行榜相关信息: 3 月 9 日榜单: 文生图:Ideogram 2a(官方评价这是 Ideogram 迄今为止最快、最实惠的文生图模型) 文生视频:SkyReels、海螺01director、Pixverse4.0 图生视频:SkyReels、Pixverse4.0、Adobe Firefly 测评涵盖了 Midjourney,Flux,即梦,Recraft,ideogram,SD3.5,Sora,可灵,通义,即梦,海螺,pixverse,pika,vidu,luma 等 50+国内外热门模型,还有 Veo 2.0 等最新模型上线。本周最出乎意料的是最新上的模型 SkyReels,在文生视频和图生视频榜单都排名靠前。 生成式 AI 季度数据报告 2024 月 1 3 月: 赛道方面:天花板潜力为数亿美金;对标公司有 Xmind 等;总体趋势平稳增长,15.93%;月平均增速 34 万 PV/月;原生产品占比中等。 竞争方面:Top1 占比 32%;Top3 占比 82%;马太效应弱;网络效应中;大厂是否入局是,但大厂占比较低;技术门槛中。 23 年 12 月至 24 年 3 月月访问量排行榜及变化情况: 非大厂的 Top1 公司及产品:Whimsical Al,估值融资 3000 万$(2021),最新月 PV 为 237 万。2023 年 4 月,月访问量 382 万,Whimsical AI、gitmind AI 分别位列第一、第二的位置,月访问量合计占比 84%。2024 年 3 月,月访问量 812 万,Whimsical AI 整年看处于增长态势,仍位列第一,月访问量达到 237 万;ProcessOn 凭借其原有客户积累,月访问量快速增长,位列第二名,占比 25%。 记忆辅助榜单中,2023 年 4 月,月访问量为 83 万,Rewind AI 以 43 万的访问量位居第一,占赛道月总访问量的 52%。Personal.ai 和 Heyday 分别以 25 万和 8 万的访问量位列二、三,分别占赛道月总访问量的 30%和 10%。2024 年 3 月,月访问量增长至 245 万,rabbit inc.以 128 万的访问量跃居第一,占赛道月总访问量的 52%。Humane 和 Rewind AI 分别以 46 万和 22 万的访问量位列二、三,分别占赛道月总访问量的 19%和 9%。 相关网址: https://www.xiaohongshu.com/user/profile/65890e73000000003d035101?xsec_token=AB67OV1KW_ANCcrYRU_oRTJKJ9xLtexbMgyoJq68rxQA%3D&xsec_source=pc_search aiwatch.ai
2025-04-15
大语言模型能力排行榜
以下是一些大语言模型能力排行榜的相关信息: Open LLM Leaderboard: 地址: 简介:由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge、HellaSwag、MMLU、TruthfulQA四个数据集上的表现,主要以英文为主。 chinesellmbenchmark: 地址: 简介:中文大模型能力评测榜单,覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果。 聊天机器人竞技场:由伯克利的一个团队管理,根据ELO评级对不同的语言模型进行排名,计算ELO的方式与国际象棋中的计算方式非常相似。 智源评测:豆包模型在其中表现出色,荣获大语言模型第一,视觉理解第二、文生图第二、文生视频第二,在匿名投票竞技场中排名第二,仅次于OpenAI。 地址:
2025-03-31
文生图模型打分的排行榜
以下是文生图模型的打分排行榜(从高到低): 文生图模型: Imagen 3:真实感满分,指令遵从强。 Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 快手可图:影视场景能用,风格化较差。 Flux.1.1:真实感强,需要搭配 Lora 使用。 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 Luma:影视感强,但风格单一,糊。 美图奇想 5.0:AI 油腻感重。 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 SD 3.5 Large:崩。 文生视频模型: 海螺:语意遵循不错,模型解析有待提高,自带电影滤镜,但有些用力过猛,得益于海量的影视数据。 可灵 1.5:颜色失真,缺少质感,偏科严重,物理规律和提示词遵循较强。 智谱:语意遵循,质感较差,画质一言难尽。 mochi:动态丰富,想象力丰富,美学质感较好。 pd 2.0 pro:PPT 效果,训练数据较少,但是联想启发性很好。 runway:空间感强,语意遵循较差,流体效果一绝。 Seaweed 2.0 pro:质感略弱于可灵 1.5,整体感觉师出同门。 sora:运镜丰富,物理逻辑混乱。 Pixverse v3:动态稳,丝滑,整体美学强于可灵 1.5。 luma 1.6:语意遵循差,提示词随便,动起来算我输。
2025-03-07
AI编程大模型排行榜
以下是一些关于 AI 编程大模型的相关信息: 1. ShowMeAI 周刊 No.13 中提到的相关内容: Learn About:继 NotebookLM 之后又一个 AI Native 产品,谷歌真正的 AI Native Education 尝试。 ima.copilot V.S. 秘塔 V.S. 天工:国区 Perplexity 青出于蓝而胜于蓝,秘塔一骑绝尘。 Markdown:技术圈(最)常用的文本编辑语言,一种「四通八达」的中转格式,并附上好用的转换工具。 把 17 岁高中生涂津豪的 Thinking Claude 提示词,设置在 Cursor 里。 两篇优秀的 AI 编程教程:跟着资深工程师&全栈开发者,挖掘 LLM 编程能力的极限。 恭喜阶跃星辰!step2 在 LiveBench 榜单杀进前 5,斩获国产大模型第 1 名,并顺带聊聊榜单和测评的「内幕」。 举个栗子:当把大模型「开源」用「做饭吃饭」来解释,一起都豁然开朗起来,甚至还玩起了谐音梗。 很有共鸣:为什么大部分人用不起来 AI?可能还没体验到效率飞升的 Aha Moment。 集体讨论:大家都是怎么快速处理长视频、长音频、长文本材料的?都有哪些工作流和工具的配合应用? 2. Trae:字节开发的一款和 AI 深度集成的 AI 编程工具,可让用户限时免费无限量使用地球上最强大的编程大模型 Claude Sonnet,全自动化进行 AI 编程。包含完整的 IDE 功能,如代码编写、项目管理、插件管理、源代码管理等,提供智能问答、实时代码建议、代码片段生成、从 0 到 1 开发项目。 3. 8 月正式上线的国内大模型: 北京的五家企业机构:百度(文心一言)https://wenxin.baidu.com ;抖音(云雀大模型)https://www.doubao.com ;智谱 AI(GLM 大模型)https://chatglm.cn ;中科院(紫东太初大模型)https://xihe.mindspore.cn ;百川智能(百川大模型)https://www.baichuanai.com/ 。 上海的三家企业机构:商汤(日日新大模型)https://www.sensetime.com/ ;MiniMax(ABAB 大模型)https://api.minimax.chat ;上海人工智能实验室(书生通用大模型)https://internai.org.cn 。 能生成 Markdown 格式的:智谱清言、商量 Sensechat、MiniMax 。 目前不能进行自然语言交流的:昇思(可以对文本进行是否由 AI 生成的检测,类似论文查重,准确度不错)、书生 。 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) 。 特色功能:昇思——生图,MiniMax——语音合成 。 阿里通义千问、360 智脑、讯飞星火等均不在首批获批名单中。广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。
2025-02-24
2024 AI工具排行榜
以下是 2024 年部分 AI 工具的相关信息: 开发者工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Langchain,其 3 月 PV 为 356 万,单 PV 价值为 56.18 美元。 赛道方面,天花板潜力 TAM 为 120 亿美元,总体趋势平稳增长,月平均增速为 82 万 PV/月,原生产品占比高。 竞争方面,Top1 占 19%,Top3 占 54%,马太效应弱,网络效应强,大厂已入局,技术门槛中。 教育工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Quizlet,其 3 月 PV 为 1.3 亿。 赛道方面,天花板潜力 TAM 约为 30 亿,总体趋势快速增长,月平均增速为 1793 万 PV/月,原生产品占比低。 竞争方面,Top1 占 45%,Top3 占 76%,马太效应弱,网络效应弱,大厂未入局,技术门槛中。 此外,在展望 2025 时,AI 行业的创新机会方面,2024 年 9 月 OpenAI 发布了新一代语言模型 o1,业界推测其采用了全新的训练与推理方案,结合强化学习技术,显著增强了推理能力,可能借鉴了下围棋的 AlphaGo Zero 的技术思路。
2025-01-26
文生图模型打分的排行榜
以下是关于文生图模型打分的排行榜相关信息: SuperCLUEImage 测评基准首次公布,DALLE 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列,但与国际领先模型仍有差距。 在包含人工评估、机器评估的全面评测中,Kolors 具有非常有竞争力的表现,达到业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。 人工评测方面,邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体平均分如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2025-01-07