Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

生图评测

Answer

以下是关于生图评测的相关内容:

评价维度

  • 提示词响应程度:包括语义理解,是否准确理解提示词含义并完整呈现内容;细节遵循,在细节上是否遵循提示词要求,如颜色、数量、位置等。
  • 真实感与逼真度:物理规律是否符合,如光照、重力等;人体结构是否准确,无明显错误。
  • 风格化能力:风格理解,是否准确理解提示词所要求的风格;风格多样性,能否生成不同风格的图片。
  • 创意性与艺术性:美感是否符合美学原则,如构图、色彩搭配等;想象力是否能给出出乎意料的作品。
  • 图像质量:清晰度与细节,图片是否清晰、细节是否丰富,有无模糊、噪点等影响观感的瑕疵;分辨率是否足够,是否适合不同应用场景。

案例分析

  • 阿强的功夫熊猫版-如来神掌的 Midjourney 词力测试:目的是测词,看模型是否将功夫熊猫训练进去,并测试其角色、风格的一致性情况。不同的提示词组合产生了不同的效果,如“DreamWorks Animation,A Po Panda”词力强,动作可控;“Po Panda”有 1/4 概率出阿宝,动作自然可控等。在写绘画 prompt 时,遵循“若无必要,勿增实体”的理念,提前测试“词力”,用迭代思维写 prompt 有助于提高生图效率。
  • Midjourney 与 Google Imagen3 的对比测试:在画面控制力上,通过复杂的人物主体和画面要求进行测试。Imagen3 在某些场景(如充满神秘感的图书馆中女性取书的细节)的表现令人震惊,能完整还原画面内容、服饰、姿势,并兼顾构图。而 Midjourney 在多主体人物和描述词下,画面质量下降明显,如女性身材比例被压缩,某些细节未出现。
Content generated by AI large model, please carefully verify (powered by aily)

References

文生图

|维度|解释||-|-||提示词响应程度|语义理解:是否准确理解了提示词的含义,并完整呈现内容?<br>细节遵循:在细节上是否遵循了提示词的要求,例如颜色、数量、位置等?||真实感与逼真度|物理规律:是否符合物理规律,例如光照、重力等?<br>人体结构:人体结构是否准确,没有出现明显的错误?||风格化能力|风格理解:是否准确理解了提示词所要求的风格?<br>风格多样性:是否能够生成具有不同风格的图片?||创意性与艺术性|美感:是否符合美学原则,例如构图、色彩搭配等?<br>想象力:是否能给出出乎意料的作品||图像质量|清晰度与细节:图片是否清晰,细节是否丰富?是否存在模糊、噪点或其他影响观感的瑕疵?<br>分辨率:图片的分辨率是否足够,是否适合不同的应用场景?|

阿强:功夫熊猫版-如来神掌 的完整复盘

目的:测词,看看MJ模型有没有把功夫熊猫训练进去,并测试其角色、风格的一致性情况。|prompt|效果评估||-|-||DreamWorks Animation,A Po Panda<br>A PO's(DreamWorks Animation A Po Panda)|词力强,动作可控||DreamWorks Animation,Kung Fu Panda,|词力极强,但因为kungfu词多为武术动作||Kung Fu Panda,|词力强,但动作因为kungfu词多为武术动作||Po Panda,|1/4概率出阿宝,动作自然可控||Master Tigress,photography by DreamWorks Animation Kung Fu Panda,<br>***,DreamWorks Animation Kung Fu Panda characters,|画功夫熊猫里的其他角色效果很差,角色不像||photography by John Stevenson,panda,|无关||dynamic shot,|加动态摄影,方便roll视频||Panda A Po(DreamWorks Animation A Po Panda),hands in a'prayer'pose|出双手合十效果||A huge bear paw from Panda A Po(DreamWorks Animation A Po Panda),Blue sky background,--ar 16:9|如来神掌prompt|我在写绘画prompt的时候,一直遵循的理念是“若无必要,勿增实体”比如使用(DreamWorks Animation,A Po Panda)就能出来功夫熊猫的电影画面效果,那就不会再加电影感、4K...等等词。提前测试“词力”:清楚知道每个词的影响,用迭代思维(MVP,再根据画面缺什么补什么)写prompt,对于后面提高生图效率真的蛮大的。

Midjourney面临巨大威胁,Google Imagen3 生图AI超长评测

在画面控制力上,我们希望佣金可能复杂多的人物主体和画面要求来测试Imagen3和MJ的对比。熟悉MJ或者SD、Flux的朋友都知道,Prompts越长,模型产生混淆和错误的可能性就越高,但也代表我们有希望得到更准确的结果。所以这次测试我们就走一个极端:尽量加长测试提示词。整体测试环境:第一组测试:场景1:一个充满神秘感的图书馆,光线昏暗,充满年代感。人物1(老年男性):人物2(年轻女性):背景:输入英文:场景1/Imagen3:Imagen3给出的结果相当让人震惊,画面内容、服饰、姿势都完整还原,并且兼顾了构图。最能体现语意遵循细节的是背景女性“正要从高处取下一本书,身体稍稍向后倾斜,她伸出一只手,仿佛害怕书会掉落。”这个描述,吃惊的是Imagen3再现这个细节姿势非常到位,而且整体画面被安排在一个相当合理的构图中,四张图像非常稳定,具备一致性特征。场景1/Midjourney:反观Midjourney出现的问题就比较多了,你是不是想问:哎,平时用MJ生成人物肖像不是很逼真,很稳嘛?其实经常用MJ的朋友对这个情况都不会陌生:在多主体人物和描述词下,MJ的画面质量会下降非常明显,这一点它一直是不如Flux等模型的。可以看到:女性的身材比例明显被压缩(强制控构图),并且“从高处取下书”这个细节根本没出现。场景2:设定一个动态的、戏剧性的场景,让两个人物的动作和服装能充分展现。人物1(女性):

Others are asking
我想图生图,生成高清矢量图
以下是关于图生图生成高清矢量图的相关内容: ControlNet 参数: 预处理器:canny,模型:control_v11p_sd15_canny 预处理器:lineart_standard,模型:control_v11p_sd15_lineart 放大高清大图: 使用 Multi Diffusion + Tiled VAE + ControlNet Tile 模型 将生成的图片发送到图生图,关键词种子会一并发送过去,重绘幅度建议 0.35,太高图片细节会发生变化 Lora 生图: 点击预览模型中间的生图会自动跳转到相应页面 模型上的数字代表模型强度,可在 0.6 1.0 之间调节,默认为 0.8 可自己添加 lora 文件,输入正向提示词,选择生成图片的尺寸(横板、竖版、正方形) 采样器和调度器新手小白可默认,迭代步数在 20 30 之间调整,CFG 在 3.5 7.5 之间调整,随机种子 1 代表随机生成图 生成的图会显示在右侧,若觉得某次生成结果不错,想要微调或高分辨率修复,可复制随机种子粘贴到相应位置 确认合适的种子和参数想要高清放大,可点开高清修复,选择放大倍数,新手小白可默认算法,迭代步数建议在 20 30 之间,重绘幅度正常在 0.3 0.7 之间调整 高清修复: 文生图高清修复原理是命令 AI 按原来内容重新画一幅,新生成绘图和原绘图细节会不同,降低重绘幅度可更接近原图,如重绘幅度 0.7 时帽子和耳机有变化,0.3 时服饰细节接近但手部可能出现问题,可通过反复抽卡、图生图局部重绘或生成多张图片后 ps 合成等解决 由于高清修复渲染耗时长,建议先低分辨率抽卡刷图,喜欢的图再用随机种子固定进行高清修复 SD 放大: 文生图画好图后发送到图生图,点击脚本选择使用 SD 放大 重绘幅度设置 0.3,放大倍率为 2,图块重叠像素设置为 64,原图尺寸加上重叠像素,如 512x768 变为 576x832,重绘幅度要保持较低数值,否则可能出现新人物
2025-04-14
AI生图模型排名
以下是一些常见的 AI 生图模型排名(从高到低): 1. Imagen 3:真实感满分,指令遵从强。 2. Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 3. Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 4. 快手可图:影视场景能用,风格化较差。 5. Flux.1.1:真实感强,需要搭配 Lora 使用。 6. 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 7. Luma:影视感强,但风格单一,糊。 8. 美图奇想 5.0:AI 油腻感重。 9. 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 10. SD 3.5 Large:崩。 此外,在相关的测评中: 豆包模型在图生图方面效果良好,美感度较高,在中文模型中遥遥领先。 Request 模型自某种风格出圈后很火,在国外模型中表现出色,甚至超过了 Midjourney。 Luma 在图生图方面表现不错,曾是第一个有出色转场效果的模型,在本次评测中是一匹黑马。 Pixverse 在文生视频的评测中获胜率达 70%,表现出乎意料。 Midjourney 常用,但在本次评测中图生图的排行未居前列。
2025-04-14
图生图网站排名推荐
以下是为您推荐的图生图网站排名: 1. 文生图: Imagen 3:真实感满分,指令遵从强。 Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 快手可图:影视场景能用,风格化较差。 Flux.1.1:真实感强,需要搭配 Lora 使用。 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 Luma:影视感强,但风格单一,糊。 美图奇想 5.0:AI 油腻感重。 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 SD 3.5 Large:崩。 2. 图生视频: pd 2.0 pro:即梦生成的画面有点颗粒感,p2.0 模型还是很能打的,很适合做一些二次元动漫特效,理解能力更强,更适合连续运镜。 luma 1.6:画面质量挺好,但是太贵了。 可灵 1.6 高品质:YYDS! 海螺01live:文生视频比图生视频更有创意,图生也还可以,但是有时候大幅度动作下手部会出现模糊的情况,整体素质不错,就是太贵了。 runway:我的快乐老家,画面质量不算差,适合做一些超现实主义的特效、经特殊就容镜头的。 智谱 2.0:做的一些画面特效挺出圈的,适合整过,但是整体镜头素质还差点,好处就是便宜,量大,管饱,还能给视频加音效。 vidu1.5:二维平面动画的快乐老家,适合做特效类镜头,单镜头也很惊艳,大范围运镜首尾帧 yyds!就是太贵了!!!!! seaweed 2.0 pro:s2.0 适合动态相对小的,更适合环绕旋转运镜动作小的。 pixverse v3 高品质:pincerse 的首尾帧还是非常能打的,就是画面美学风格还有待提升的空间。 sora:不好用,文生视频挺强的,但是最需要的图生视频抽象镜头太多,半成品都算不上,避雷避雷避雷,浪费时间。 3. 小白也能使用的国内外 AI 生图网站: 可灵可图 1.5:https://app.klingai.com/cn/texttoimage/new 通义万相(每日有免费额度):https://tongyi.aliyun.com/wanxiang/creation 文心一言:https://yiyan.baidu.com/ 星流(每日有免费额度):https://www.xingliu.art/ Libiblib(每日有免费额度但等待较久):https://www.liblib.art/
2025-04-13
文生图
以下是关于文生图的简易上手教程: 1. 定主题:确定您需要生成的图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora:在生成内容基础上,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看的帖子。 4. ControlNet:可控制图片中特定图像,如人物姿态、生成特定文字等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,不用管语法。 9. 采样算法:一般选 DPM++2M Karras 较多,也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数一般在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。 以下是一些常见的文生图工具和模型: 1. 腾讯混元 2. luma 3. Recraft 4. 文生图大模型 V2.1L(美感版) 5. 美图奇想 5.0 6. midjourney 7. 快手可图 8. Flux.1.1 9. Stable Diffusion 3.5 Large 10. Imagen 3 网页版
2025-04-12
文生图工具
以下是关于文生图工具的相关信息: 常见的文生图工具包括: DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真图片。 StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 MidJourney:因高质量图像生成效果和友好界面在创意设计人群中受欢迎。 更多文生图工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看。 Stability AI 推出的基于 Discord 的媒体生成和编辑工具的文生图使用方法: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,提交后可免费试用三天,三天后开始收费。 输入/dream 提示词,和 MJ 类似,可选参数有五类,包括 prompt(提示词,正常文字输入,必填项)、negative_prompt(负面提示词,填写负面提示词,选填项)、seed(种子值,可以自己填,选填项)、aspect(长宽比,选填项)、model(模型选择,SD3,Core 两种可选,选填项)、Images(张数,14 张,选填项)。完成后选择其中一张。 Tusiart 文生图的简易上手教程: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题找内容贴近的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。 ControlNet:控制图片中特定图像,如人物姿态、生成特定文字、艺术化二维码等。 局部重绘:下篇再教。 设置 VAE:无脑选择 840000 。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。
2025-04-12
文生图大模型排名
以下是文生图大模型的排名(从高到低): 1. Imagen 3:真实感满分,指令遵从强。 2. Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 3. Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 4. 快手可图:影视场景能用,风格化较差。 5. Flux.1.1:真实感强,需要搭配 Lora 使用。 6. 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 7. Luma:影视感强,但风格单一,糊。 8. 美图奇想 5.0:AI 油腻感重。 9. 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 10. SD 3.5 Large:崩。
2025-04-12
大模型怎么进行评测的
大模型的评测方式多种多样,以下为您介绍一些常见的评测方法和相关示例: 1. 斯坦福发布的大模型排行榜 AlpacaEval: 相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。 从统计角度出发,检验什么评估数据可以最好地区分模型。 支持两种模式的模型评估方式: alpaca_eval:直接根据目标模型输出的响应来评估模型。 alpaca_eval evaluate_from_model:根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。 评测过程分为以下 3 步: 选择一个评估集,并计算指定为 model_outputs 的输出。默认情况下,使用来自 AlpacaEval 的 805 个示例。 计算 golden 输出 reference_outputs。默认情况下,在 AlpacaEval 上使用 textdavinci003 的输出。 通过 annotators_config 选择指定的自动标注器,它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器,使用者还需要在环境配置中设定 API_KEY。 2. 小七姐的测评: 测评目标:测评三家国产大模型,以同组提示词下 ChatGPT 4.0 生成的内容做对标参照。 能力考量:包括复杂提示词理解和执行(结构化提示词)、推理能力(CoT 表现)、文本生成能力(写作要求执行)、提示词设计能力(让模型设计提示词)、长文本归纳总结能力(论文阅读)。 测评轮次:分为复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力等多轮,每轮都有不同的任务和模型测试次数。 3. LLM 开源中文大语言模型及数据集集合中的评测: FlagEval(天秤)大模型评测体系及开放平台:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。
2025-03-13
大模型评测
以下是关于大模型评测的相关信息: FlagEval(天秤)大模型评测体系及开放平台: 地址: 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval:构造中文大模型的知识评估基准: 地址: 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb:SuperCLUE 琅琊榜 地址: 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。 此外,还有小七姐对文心一言 4.0、智谱清言、KimiChat 的小样本测评,测评机制包括: 测评目标:测评三家国产大模型,以同组提示词下 ChatGPT 4.0 生成的内容做对标参照。 能力考量:复杂提示词理解和执行(结构化提示词)、推理能力(CoT 表现)、文本生成能力(写作要求执行)、提示词设计能力(让模型设计提示词)、长文本归纳总结能力(论文阅读)。 测评轮次:第一轮是复杂提示词理解和执行,包括 Markdown+英文 title 提示词测试、Markdown+中文 title 提示词测试、中文 title+自然段落提示词测试;第二轮是推理能力(CoT 表现);第三轮是文本生成能力(写作要求执行);第四轮是提示词设计能力(让模型设计提示词);第五轮是长文本归纳总结能力(论文阅读)。 测试大模型质量好坏时,常用的问题包括检索和归纳、推理性、有日期相关历史事件等。以下是几个专业做模型测评的网站:
2025-02-17
模型评测
以下是关于模型评测的相关内容: Llama2 模型评测:为了解其中文问答能力,筛选了具有代表性的中文问题进行提问,测试了 Meta 公开的 Llama27BChat 和 Llama213BChat 两个版本,未做任何微调和训练。测试问题涵盖通用知识、语言理解等八个类别,使用特定 Prompt,测试结果见相应文档。通过测试发现,该模型对于中文问答的对齐效果一般,基于中文数据的训练和微调十分必要。 LORA 模型训练超入门级教程中的模型测试:最后从炼丹炉内取最小值的模型为最佳,在 Output 文件夹下取出模型。可用 Stable Diffusion 的 xyz 图表脚本来测试不同权重下 Lora 的表现,包括选择 x 轴、y 轴类型等操作。 斯坦福发布大模型排行榜 AlpacaEval:相对于人工标注,全自动化的 AlpacaEval 经济成本和时间成本低。还探讨了什么评估数据能最好地区分模型,以及 AlpacaEval 支持两种模式的模型评估方式,评测过程分为三步,包括选择评估集、计算输出等,并建议使用特定的自动标注器。
2025-02-11
大模型评测
以下是关于大模型评测的相关信息: 招聘信息:有大模型算法工程师/产品经理(实习)岗位在北京,工作包括大模型效果评测,要求研究生及以上学历,相关专业优先,有相关实习经验、代码能力强等。 开源评测体系及平台: FlagEval(天秤):旨在建立科学、公正、开放的评测基准、方法、工具集,创新构建了“能力任务指标”三维评测框架。 CEval:构造了覆盖多学科的中文知识和推理型测试集,并给出主流中文 LLM 的评测结果。 SuperCLUElyb:中文通用大模型匿名对战评价基准,发布了初步结果和基于 Elo 评级系统的排行榜。 测评示例:小七姐对文心一言 4.0、智谱清言、KimiChat 进行小样本测评,包括测评机制、目标、能力考量和多轮测评任务,如复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力等,每轮测评都有不同的任务和模型参与。
2025-01-14
superclue 在国内的评测里面什么地位,国外对标的评测是什么
在国内的评测中,SuperCLUE 是大模型时代 CLUE 基准的发展和延续,聚焦于通用大模型的综合性测评。在 SuperCLUE 测评中,国外模型的平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右。国内外的平均水平差距在缩小,11 月差距在 10 分左右。 SuperCLUE 是中文语言理解测评基准 CLUE 的发展,发起于 2019 年,陆续推出了多种广为引用的测评基准。它根据多年的测评经验,构建了多层次、多维度的综合性测评基准。SuperCLUE 始终秉持中立、客观的第三方测评理念,采用自动化方式的客观评估,降低评测过程中的人为评估的不确定性。 国外对标的评测没有明确提及。
2025-01-07
帮我查一下这四家主流大模型的应用能力评测报告吧,通用能力和单项能力都可,数据需要权威一些文心一言 文心一格 通义千问 通义万相 讯飞星火 ai小科 智谱
以下是为您找到的关于主流大模型应用能力评测的相关报告: 小七姐的测评: 测评机制:以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,对智谱清言、文心一言 4.0、Kimi Chat 进行测评。 能力考量:包括复杂提示词理解和执行(结构化提示词)、推理能力(CoT 表现)、文本生成能力(写作要求执行)、提示词设计能力(让模型设计提示词)、长文本归纳总结能力(论文阅读)。 测评轮次:共分为五轮,分别针对不同的任务和模型进行多次测试。 中文大模型基准测评 2023 年度报告: 优秀模型:文心一言 4.0 API(百度)。 模型特点:在计算、逻辑推理、生成与创作、传统安全这 4 大基础能力上排名国内第一,在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三,各项能力表现均衡且水平较高。 适合应用:能力栈广泛,可应用于查询搜索知识应用、任务拆解规划 Agent、文案写作、代码编写及纠错等方面,在逻辑推理方面表现不俗,可关注在科学研究、教育、工业方面的落地能力。 观点文章中的测评: 目前体验效果比较好的有科大星火模型、清华 ChatGLM、百度文心一言。 星火目前感觉最接近 GPT3.5(0301 版本)的 80%90%,但 GPT3.5 进化到 6 月版本效果更强。 对大模型的评估可从基础能力、职场能力、探索对话三个方面判断,基础能力包括语言(文本)生成和语言理解,如常识类问题和分词类问题。
2024-12-27