Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

文生图模型打分的排行榜

Answer

以下是关于文生图模型打分的排行榜相关信息:

  • SuperCLUE-Image 测评基准首次公布,DALL-E 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLM-Art 位列国内前列,但与国际领先模型仍有差距。
  • 在包含人工评估、机器评估的全面评测中,Kolors 具有非常有竞争力的表现,达到业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。
    • 人工评测方面,邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体平均分如下:
      • Adobe-Firefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。
      • Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。
      • DALL-E 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。
      • Midjourney-v5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。
      • Playground-v2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。
      • Midjourney-v6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。
      • Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
Content generated by AI large model, please carefully verify (powered by aily)

References

模型能力简介

Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。

2024 年历史更新(归档)

《[探讨大模型未来:从Scaling Law到数据红利再到终极Token工厂](https://mp.weixin.qq.com/s/aoyqyAgOIfd3TW5QCewONw)》作者祝威廉,文章探讨了大模型的未来,包括规模化法则(Scaling Law)、数据红利和Token工厂概念。指出大模型发展受限于算力成本,数据红利尚未充分利用,最终目标是构建高效的Token生产体系。《[【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)](https://waytoagi.feishu.cn/wiki/JKORwNJdfiB0J7kI9PucCoWcn3d)》《[智变时代/全面理解机器智能与生成式AI加速的新工业革命](https://mp.weixin.qq.com/s/vQVXlfqbn8lDW9P6uLmppw)》Indigo的雄文,时隔一年半,他用这篇《智变时代》来温故下AI领域波澜壮阔的一年,尝试抓住生成式AI变革的本质,带大家拨开喧嚣与迷雾,追寻科技巨头与AI机构们在更高智能道路上的探索,以及变革会如何全面改变人机交互、世界的产业、经济还有我们自己……《[文生图大模型基准测评首期榜单公布,DALL-E 3取得最高76.94分](https://mp.weixin.qq.com/s/XWaNljbcs-1qd-nkqUJayg)》SuperCLUE-Image测评基准首次公布,DALL-E 3以76.94分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和vivo的BlueLM-Art位列国内前列,但与国际领先模型仍有差距。

延伸阅读

为了全面比较Kolors与其他模型的生成能力,我们构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中,Kolors具有非常有竞争力的表现,达到业界领先水平。我们构建了一个包含14种垂类,12个挑战项,总数量为一千多个prompt的文生图评估集KolorsPrompts。在KolorsPrompts上,我们收集了Kolors与市面上常见的SOTA级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。[heading3]人工评测[content]我们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,为生成图像打分,衡量维度为:画面质量、图文相关性、整体满意度三个方面。Kolors在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。|模型|整体满意度平均分|画面质量平均分|图文相关性平均分||-|-|-|-||Adobe-Firefly|3.03|3.46|3.84||Stable Diffusion 3|3.26|3.5|4.2||DALL-E 3|3.32|3.54|4.22||Midjourney-v5|3.32|3.68|4.02||Playground-v2.5|3.37|3.73|4.04||Midjourney-v6|3.58|3.92|4.18||Kolors|3.59|3.99|4.17|所有模型结果取自2024.04的产品版本

Others are asking
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
论文生成
以下是关于论文生成的相关信息: Deepseek V3 案例:有人用 Claude 做了一系列各种风格卡片的提示词,并在 V3 上进行尝试,效果不错。还有人把论文变成可视化。 ChatGPT 文本生成:以“词”为单位进行文本生成,存在随机性,有特定的“温度”参数控制较低排名单词的使用频率,对于文章生成“温度”为 0.8 效果较好。 论文写作的 AI 产品: 文献管理和搜索:Zotero 可自动提取文献信息,Semantic Scholar 是 AI 驱动的学术搜索引擎。 内容生成和辅助写作:Grammarly 提供文本校对等帮助,Quillbot 可重写和摘要。 研究和数据分析:Google Colab 支持 AI 和机器学习研究,Knitro 用于数学建模和优化。 论文结构和格式:LaTeX 结合自动化和模板处理格式,Overleaf 是在线 LaTeX 编辑器。 研究伦理和抄袭检测:Turnitin 和 Crossref Similarity Check 检测抄袭。 使用这些工具时要结合自身需求和写作风格,并仔细甄别内容。
2025-04-13
文生图
以下是关于文生图的简易上手教程: 1. 定主题:确定您需要生成的图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora:在生成内容基础上,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看的帖子。 4. ControlNet:可控制图片中特定图像,如人物姿态、生成特定文字等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,不用管语法。 9. 采样算法:一般选 DPM++2M Karras 较多,也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数一般在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。 以下是一些常见的文生图工具和模型: 1. 腾讯混元 2. luma 3. Recraft 4. 文生图大模型 V2.1L(美感版) 5. 美图奇想 5.0 6. midjourney 7. 快手可图 8. Flux.1.1 9. Stable Diffusion 3.5 Large 10. Imagen 3 网页版
2025-04-12
文生图工具
以下是关于文生图工具的相关信息: 常见的文生图工具包括: DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真图片。 StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 MidJourney:因高质量图像生成效果和友好界面在创意设计人群中受欢迎。 更多文生图工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看。 Stability AI 推出的基于 Discord 的媒体生成和编辑工具的文生图使用方法: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,提交后可免费试用三天,三天后开始收费。 输入/dream 提示词,和 MJ 类似,可选参数有五类,包括 prompt(提示词,正常文字输入,必填项)、negative_prompt(负面提示词,填写负面提示词,选填项)、seed(种子值,可以自己填,选填项)、aspect(长宽比,选填项)、model(模型选择,SD3,Core 两种可选,选填项)、Images(张数,14 张,选填项)。完成后选择其中一张。 Tusiart 文生图的简易上手教程: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题找内容贴近的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。 ControlNet:控制图片中特定图像,如人物姿态、生成特定文字、艺术化二维码等。 局部重绘:下篇再教。 设置 VAE:无脑选择 840000 。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。
2025-04-12
文生图大模型排名
以下是文生图大模型的排名(从高到低): 1. Imagen 3:真实感满分,指令遵从强。 2. Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 3. Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 4. 快手可图:影视场景能用,风格化较差。 5. Flux.1.1:真实感强,需要搭配 Lora 使用。 6. 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 7. Luma:影视感强,但风格单一,糊。 8. 美图奇想 5.0:AI 油腻感重。 9. 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 10. SD 3.5 Large:崩。
2025-04-12
论文生成提示词
以下是为您整理的关于论文生成提示词的相关内容: 1. 在关于 DALL·E 3 论文的研究中,提示词包括: 给评分员提供完整的图像描述内容,要求评分员选择更符合文本描述的图像。 让评分员想象自己正在借助工具根据文本生成图像,并选择希望看到的图像。 让评分员从人的身体部位、面部和姿势、对象的位置等方面判断图像的连贯性。 但 DALL·E 3 仍存在空间感知不佳、构建文本描述生成器时的功能不可靠、生成的图片在重要细节上产生幻觉等问题。 2. 云舒为读懂 Claude 论文使用的提示词: “论文深度剖析导师”提示词,可用于深度理解文本,如解读公众号文章、专业论文、书籍、在线课程等。 还可用于求职分析,拆解岗位描述并定制求职攻略,甚至作为自我介绍的“测谎仪”。 希望以上内容对您有所帮助。
2025-04-10
文生图模型打分的排行榜
以下是文生图模型的打分排行榜(从高到低): 文生图模型: Imagen 3:真实感满分,指令遵从强。 Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 快手可图:影视场景能用,风格化较差。 Flux.1.1:真实感强,需要搭配 Lora 使用。 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 Luma:影视感强,但风格单一,糊。 美图奇想 5.0:AI 油腻感重。 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 SD 3.5 Large:崩。 文生视频模型: 海螺:语意遵循不错,模型解析有待提高,自带电影滤镜,但有些用力过猛,得益于海量的影视数据。 可灵 1.5:颜色失真,缺少质感,偏科严重,物理规律和提示词遵循较强。 智谱:语意遵循,质感较差,画质一言难尽。 mochi:动态丰富,想象力丰富,美学质感较好。 pd 2.0 pro:PPT 效果,训练数据较少,但是联想启发性很好。 runway:空间感强,语意遵循较差,流体效果一绝。 Seaweed 2.0 pro:质感略弱于可灵 1.5,整体感觉师出同门。 sora:运镜丰富,物理逻辑混乱。 Pixverse v3:动态稳,丝滑,整体美学强于可灵 1.5。 luma 1.6:语意遵循差,提示词随便,动起来算我输。
2025-03-07
给文生图ai模型打分的权威标准是什么
给文生图 AI 模型打分的权威标准通常包括以下方面: 1. 图像生成质量:如清晰度、细节丰富程度、色彩准确性等。 2. 多样性:生成图像的风格、主题和表现形式的丰富程度。 3. 文本一致性:生成的图像与输入的文本描述的匹配程度。 在具体的测评中,会构建包含人工评估和机器评估的全面评测内容。人工评测方面,会邀请具有图像领域知识的专业评估人员,从画面质量、图文相关性、整体满意度等维度为生成图像打分。例如,在对 Kolors 与其他模型的比较中,就从这些维度进行了评估。 此外,像 SuperCLUEImage 测评基准首次公布的结果中,DALLE 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列,但与国际领先模型仍有差距。
2025-01-07
怎么制定模型打分标准
制定模型打分标准可以从以下方面考虑: 1. 对于通用人工智能模型: 模型的参数数量。 数据集的质量或大小,例如通过词元来衡量。 训练模型所用的计算量,以浮点运算数衡量,或由其他变量组合表示,如估计的训练成本、估计的训练所需时间或估计的训练能耗。 模型的输入和输出模式,如文本到文本(大型语言模型)、文本到图像和多模态,以及确定每种模式的高影响能力的先进水平阈值,以及输入和输出的具体类型(如生物序列)。 模型能力的基准和评估,包括考虑无需额外训练的适配任务数量、学习新的独特任务的可适应性、其自主程度和可扩展性、可使用的工具。 由于其覆盖范围,而对内部市场的影响很大,如已提供给至少 10000 个设立在联盟之内的注册商业用户,则应加以推定。 注册的终端部署者数量。 与使用通用人工智能模型有关的相关软件版本,如适用。 结构和参数数量。 输入和输出的模态(如文本、图像)和格式。 模型许可。 模型要件及其开发过程的说明,包括将通用人工智能模型纳入人工智能系统所需的技术手段(如使用说明、基础设施、工具)。 2. 对比不同大型语言模型的性能: 理解能力:评估模型对语言的理解程度,包括对语法、语义、上下文和隐含意义的理解。 生成质量:检查模型生成的文本的质量,包括文本的流畅性、相关性和准确性。 知识广度和深度:评估模型对广泛主题的知识掌握程度,以及它对特定领域或话题的理解深度。 泛化能力:测试模型在处理未见过的任务或数据时的表现,这反映了模型的泛化能力。 鲁棒性:检查模型对错误输入、对抗性输入或模糊不清的指令的应对能力。 偏见和伦理:评估模型生成文本时是否存在偏见,以及模型是否遵循伦理标准。 交互性和适应性:评估模型在交互环境中的表现,包括对用户反馈的适应性和持续对话的能力。 计算效率和资源消耗:考虑模型的大小、训练和运行所需的计算资源。 易用性和集成性:评估模型是否易于集成到不同的应用和服务中,以及提供的 API 和工具的易用性。 为了进行有效的比较,可以采用以下方法:标准基准测试,使用标准的语言模型评估基准,如 GLUE、SuperGLUE、SQuAD 等,这些基准提供了统一的测试环境和评分标准。
2024-09-02
模型打分
评估模型输出通常需要一个“黄金标准”的答案。假设我们清楚某个问题的正确答案应包含哪些事实(得分点),就可以使用模型查询和计算的方法总结这些得分点来为模型输出质量打分。这是监督学习的一部分,能让模型在人类指导下改善性能。评估过程通常由另一个模型执行,以降低人力成本。 例如,杨志磊对各模型的答辩状 prompt 进行了评测,按照满分 10 分的标准,各模型得分如下:ChatGPT 为 6 分,Bard 为 5.5 分,Kimi chat 为 6.5 分,智谱清言为 5 分,讯飞星火为 5 分,文心一言 3.5 为 4 分,通义千问为 6.5 分,腾讯混元为 5 分,百川大模型为 7 分,豆包 AI 为 5 分,Copilot 为 9 分,Claude 2.0 为 6 分。 斯坦福发布的大模型排行榜 AlpacaEval 相比其他 LLM 自动评测器,如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 及人类评估,有其特别之处。在 AlpacaEval set 上,通过与 2.5K 条人工标注结果对比,其采用的 GPT4 评测方式取得了最高的人类一致性、较低的误差,且只需约 1/22 的人类标注成本。另外,团队还从统计角度研究了什么评估数据能最好地区分模型,并发现 SelfInstruct 数据集产生的统计能力最小,可从评估集中删除。AlpacaEval 支持两种模式的模型评估方式。
2024-09-02
最新的AI排行榜
以下是最新的 AI 排行榜相关信息: 3 月 9 日榜单: 文生图:Ideogram 2a(官方评价这是 Ideogram 迄今为止最快、最实惠的文生图模型) 文生视频:SkyReels、海螺01director、Pixverse4.0 图生视频:SkyReels、Pixverse4.0、Adobe Firefly 测评涵盖了 Midjourney,Flux,即梦,Recraft,ideogram,SD3.5,Sora,可灵,通义,即梦,海螺,pixverse,pika,vidu,luma 等 50+国内外热门模型,还有 Veo 2.0 等最新模型上线。本周最出乎意料的是最新上的模型 SkyReels,在文生视频和图生视频榜单都排名靠前。 生成式 AI 季度数据报告 2024 月 1 3 月: 赛道方面:天花板潜力为数亿美金;对标公司有 Xmind 等;总体趋势平稳增长,15.93%;月平均增速 34 万 PV/月;原生产品占比中等。 竞争方面:Top1 占比 32%;Top3 占比 82%;马太效应弱;网络效应中;大厂是否入局是,但大厂占比较低;技术门槛中。 23 年 12 月至 24 年 3 月月访问量排行榜及变化情况: 非大厂的 Top1 公司及产品:Whimsical Al,估值融资 3000 万$(2021),最新月 PV 为 237 万。2023 年 4 月,月访问量 382 万,Whimsical AI、gitmind AI 分别位列第一、第二的位置,月访问量合计占比 84%。2024 年 3 月,月访问量 812 万,Whimsical AI 整年看处于增长态势,仍位列第一,月访问量达到 237 万;ProcessOn 凭借其原有客户积累,月访问量快速增长,位列第二名,占比 25%。 记忆辅助榜单中,2023 年 4 月,月访问量为 83 万,Rewind AI 以 43 万的访问量位居第一,占赛道月总访问量的 52%。Personal.ai 和 Heyday 分别以 25 万和 8 万的访问量位列二、三,分别占赛道月总访问量的 30%和 10%。2024 年 3 月,月访问量增长至 245 万,rabbit inc.以 128 万的访问量跃居第一,占赛道月总访问量的 52%。Humane 和 Rewind AI 分别以 46 万和 22 万的访问量位列二、三,分别占赛道月总访问量的 19%和 9%。 相关网址: https://www.xiaohongshu.com/user/profile/65890e73000000003d035101?xsec_token=AB67OV1KW_ANCcrYRU_oRTJKJ9xLtexbMgyoJq68rxQA%3D&xsec_source=pc_search aiwatch.ai
2025-04-15
大语言模型能力排行榜
以下是一些大语言模型能力排行榜的相关信息: Open LLM Leaderboard: 地址: 简介:由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge、HellaSwag、MMLU、TruthfulQA四个数据集上的表现,主要以英文为主。 chinesellmbenchmark: 地址: 简介:中文大模型能力评测榜单,覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果。 聊天机器人竞技场:由伯克利的一个团队管理,根据ELO评级对不同的语言模型进行排名,计算ELO的方式与国际象棋中的计算方式非常相似。 智源评测:豆包模型在其中表现出色,荣获大语言模型第一,视觉理解第二、文生图第二、文生视频第二,在匿名投票竞技场中排名第二,仅次于OpenAI。 地址:
2025-03-31
AI编程大模型排行榜
以下是一些关于 AI 编程大模型的相关信息: 1. ShowMeAI 周刊 No.13 中提到的相关内容: Learn About:继 NotebookLM 之后又一个 AI Native 产品,谷歌真正的 AI Native Education 尝试。 ima.copilot V.S. 秘塔 V.S. 天工:国区 Perplexity 青出于蓝而胜于蓝,秘塔一骑绝尘。 Markdown:技术圈(最)常用的文本编辑语言,一种「四通八达」的中转格式,并附上好用的转换工具。 把 17 岁高中生涂津豪的 Thinking Claude 提示词,设置在 Cursor 里。 两篇优秀的 AI 编程教程:跟着资深工程师&全栈开发者,挖掘 LLM 编程能力的极限。 恭喜阶跃星辰!step2 在 LiveBench 榜单杀进前 5,斩获国产大模型第 1 名,并顺带聊聊榜单和测评的「内幕」。 举个栗子:当把大模型「开源」用「做饭吃饭」来解释,一起都豁然开朗起来,甚至还玩起了谐音梗。 很有共鸣:为什么大部分人用不起来 AI?可能还没体验到效率飞升的 Aha Moment。 集体讨论:大家都是怎么快速处理长视频、长音频、长文本材料的?都有哪些工作流和工具的配合应用? 2. Trae:字节开发的一款和 AI 深度集成的 AI 编程工具,可让用户限时免费无限量使用地球上最强大的编程大模型 Claude Sonnet,全自动化进行 AI 编程。包含完整的 IDE 功能,如代码编写、项目管理、插件管理、源代码管理等,提供智能问答、实时代码建议、代码片段生成、从 0 到 1 开发项目。 3. 8 月正式上线的国内大模型: 北京的五家企业机构:百度(文心一言)https://wenxin.baidu.com ;抖音(云雀大模型)https://www.doubao.com ;智谱 AI(GLM 大模型)https://chatglm.cn ;中科院(紫东太初大模型)https://xihe.mindspore.cn ;百川智能(百川大模型)https://www.baichuanai.com/ 。 上海的三家企业机构:商汤(日日新大模型)https://www.sensetime.com/ ;MiniMax(ABAB 大模型)https://api.minimax.chat ;上海人工智能实验室(书生通用大模型)https://internai.org.cn 。 能生成 Markdown 格式的:智谱清言、商量 Sensechat、MiniMax 。 目前不能进行自然语言交流的:昇思(可以对文本进行是否由 AI 生成的检测,类似论文查重,准确度不错)、书生 。 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) 。 特色功能:昇思——生图,MiniMax——语音合成 。 阿里通义千问、360 智脑、讯飞星火等均不在首批获批名单中。广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。
2025-02-24
2024 AI工具排行榜
以下是 2024 年部分 AI 工具的相关信息: 开发者工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Langchain,其 3 月 PV 为 356 万,单 PV 价值为 56.18 美元。 赛道方面,天花板潜力 TAM 为 120 亿美元,总体趋势平稳增长,月平均增速为 82 万 PV/月,原生产品占比高。 竞争方面,Top1 占 19%,Top3 占 54%,马太效应弱,网络效应强,大厂已入局,技术门槛中。 教育工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Quizlet,其 3 月 PV 为 1.3 亿。 赛道方面,天花板潜力 TAM 约为 30 亿,总体趋势快速增长,月平均增速为 1793 万 PV/月,原生产品占比低。 竞争方面,Top1 占 45%,Top3 占 76%,马太效应弱,网络效应弱,大厂未入局,技术门槛中。 此外,在展望 2025 时,AI 行业的创新机会方面,2024 年 9 月 OpenAI 发布了新一代语言模型 o1,业界推测其采用了全新的训练与推理方案,结合强化学习技术,显著增强了推理能力,可能借鉴了下围棋的 AlphaGo Zero 的技术思路。
2025-01-26
中国的国产ai排行榜
以下是关于中国国产 AI 排行榜的相关信息: 根据《2024 年度 AI 十大趋势报告》,在 APP 端,截至 2024 年 10 月,共 56 款产品的历史下载量超百万,8 款产品历史下载量超千万,夸克和豆包的历史总下载量已过亿。从单月新增来看,夸克、豆包和 Kimi 智能助手月增长可达到千万级,10 款产品可达百万级;DAU 方面,夸克 DAU 超过 2600 万,豆包、Kimi、天天跳绳和文小言 DAU 超百万;用户粘性方面,夸克和叨叨三日留存率超过 30%。 在 Web 端,AI 智能助手赛道外的所有赛道都基本处于停滞状态,用户规模方面,月总访问量超千万的共 7 款产品,包括夸克、腾讯文档、百度文库、Kimi 智能助手、文心一言、豆包和通义。在用户活跃度上,共 3 款产品——夸克、Notion 和百度文库的 MAU 超过千万,19 款产品 MAU 超过百万。仅有 14 款产品人均每月访问超过 5 次,13 款产品平均访问时长超过 10 分钟。 9 月的 AI 智库月度榜单中,部分产品如美趣 AI、说得相机提词器、AI 智能写作、创客贴 AI、360AI 搜索、图趣 AI、Molica AI、文案宝等在列,同时还有开拍、妙笔工坊、TalkAI 练口语、美图设计室、秘塔 AI 搜索、X Eva、快问 AI、我在 AI 等产品。
2024-12-29
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14