Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

模型测评

Answer

以下是关于模型测评的相关内容:

  • Llama2 模型评测:为了解其中文问答能力,筛选了具有代表性的中文问题进行提问,测试了 Meta 公开的 Llama2-7B-Chat 和 Llama2-13B-Chat 两个版本,未做任何微调和训练。测试问题涵盖通用知识、语言理解等八个类别,使用特定 Prompt 进行测试,测试结果见相应文档。发现该模型对于中文问答的对齐效果一般,基于中文数据的训练和微调十分必要。
  • 小七姐:文心一言 4.0、智谱清言、KimiChat 小样本测评:测评机制包括以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,能力考量涵盖复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力,测评轮次包括复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力,每轮次均有不同的任务和模型测试次数。
  • 斯坦福发布大模型排行榜 AlpacaEval:相对于人工标注,全自动化的 AlpacaEval 经济成本和时间成本低。从统计角度探讨了区分模型的评估数据,AlpacaEval 支持两种模式的模型评估方式,评测过程分为选择评估集并计算输出、计算 golden 输出、选择自动标注器并计算胜率三步。
Content generated by AI large model, please carefully verify (powered by aily)

References

模型评测

为了能够更加清晰地了解Llama2模型的中文问答能力,我们筛选了一些具有代表性的中文问题,对Llama2模型进行提问。我们测试的模型包含Meta公开的Llama2-7B-Chat和Llama2-13B-Chat两个版本,没有做任何微调和训练。测试问题筛选自AtomBulb,共95个测试问题,包含:通用知识、语言理解、创作能力、逻辑推理、代码编程、工作技能、使用工具、人格特征八个大的类别。测试中使用的Prompt如下,例如对于问题“列出5种可以改善睡眠质量的方法”:Llama2-7B-Chat的测试结果见meta_eval_7B.md,Llama2-13B-Chat的测试结果见meta_eval_13B.md。通过测试我们发现,Meta原始的Llama2 Chat模型对于中文问答的对齐效果一般,大部分情况下都不能给出中文回答,或者是中英文混杂的形式。因此,基于中文数据对Llama2模型进行训练和微调十分必要。

小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评

测评三家国产大模型,以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)[heading3]二、能力考量[content]复杂提示词理解和执行(结构化提示词)推理能力(CoT表现)文本生成能力(写作要求执行)提示词设计能力(让模型设计提示词)长文本归纳总结能力(论文阅读)[heading3]三、测评轮次[heading4]第一轮:复杂提示词理解和执行[content]1.任务一:Markdown+英文title提示词测试,1个任务4个模型(4次)2.任务二:Markdown+中文title提示词测试,1个任务4个模型(4次)3.任务三:中文title+自然段落提示词测试,1个任务4个模型(4次)[heading4]第二轮:推理能力(CoT表现)[content]逐步推理任务,遍历3个不同类型任务+4个大模型(12次)[heading4]第三轮:文本生成能力(写作要求执行)[content]根据提示词生成文本任务,遍历3个不同类型任务+4个大模型(12次)[heading4]第四轮:提示词设计能力(让模型设计提示词)[content]按提示词要求生成提示词,逐步推理任务,遍历3个不同类型任务+4个大模型(12次)[heading4]第五轮:长文本归纳总结能力(论文阅读)[content]按提供的长文本(上传或在线)进行归纳总结,逐步推理任务,遍历3个不同类型任务+4个大模型(12次)

斯坦福发布大模型排行榜AlpacaEval

图注:人类一致性:标注者与交叉标注集中人类多数票之间的一致性。价格:每1000个标注的平均价格。时间:计算1000个标注所需的平均时间。相对于人工标注,全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外,还有一个关键问题:什么评估数据可以最好地区分模型。团队从统计角度出发,在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如,我们看到Self-Instruct数据集产生的统计能力最小,这表明可以从评估集中删除该数据集。图注:不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式:alpaca_eval:直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model:根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步:1.选择一个评估集,并计算指定为model_outputs的输出。默认情况下,我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下,在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器,它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器,使用者还需要在环境配置中设定API_KEY。

Others are asking
用AI做职业测评
以下是关于用 AI 做职业测评的相关信息: 职业规划导师(校招版)功能: 1. 职业趋势分析:基于最新市场数据和行业报告,协助用户分析自身专业或职业的前景,助其了解未来职业趋势。 2. 技能评估与提升:通过测评工具评估用户当前职业兴趣,提供针对性学习资源和课程建议,帮助提升专业技能。 3. 职业匹配与推荐:根据用户兴趣、技能和职业目标,推荐适合的职业路径和职位,提供个性化职业建议。 4. 职业发展规划:结合用户个人情况和市场需求,制定详细的职业发展计划,包括短、中、长期目标,帮助用户在 AI 时代找到职业定位。 后续使用场景及商业化前景: 1. 学生和应届毕业生: 职业选择和规划:了解 AI 技术在不同职业中的应用,评估兴趣和技能,选择合适路径并制定规划。 技能提升:根据职业目标获得个性化学习建议和资源,提升 AI 领域技能。 2. 职场新人和职业转换者: 职业发展指导:制定职业发展计划,明确短期和长期目标。 职业转型支持:提供转型路径和必要技能培训资源,帮助顺利转型。 3. 企业: 人才招聘和培养:评估应聘者 AI 技能水平,选择合适候选人,为现有员工提供职业发展规划和技能提升建议,培养内部 AI 人才。 员工职业发展:为员工制定个性化职业发展计划,提供持续指导和培训,提升满意度和留任率。 4. 教育机构: 职业指导服务:作为学生职业指导一部分,帮助了解 AI 领域职业机会和发展路径,提升就业率。 课程设计和优化:根据市场需求和学生职业规划优化课程设置,提供针对性 AI 技能培训。 5. 职业咨询师: 辅助工具:使用产品为客户提供更精准职业规划建议和技能评估,提升服务质量和效率。 数据支持:基于产品提供的市场数据和职业趋势分析,为客户提供更全面和前瞻性指导。 BotID:7388833785208504358
2025-03-31
测评集怎么准备?
准备测评集通常需要以下步骤: 1. 确定评估标准:根据具体的业务目标和应用场景,明确测评的重点和要求。 2. 构建测试题目:例如对于中文大模型,可以包括多轮开放问题和多种能力的客观选择题,如 2023 年度中文大模型基准测评报告中提到的 1060 道多轮简答题和 3213 道客观选择题。 3. 考虑多维度和多视角:采用综合性的测评方案,全面评估模型的能力。 4. 引入裁判模型:如使用超级模型作为评判官,对不同模型的表现进行对比和评分。 5. 设定评分规则:明确胜、和、负的得分情况,并计算综合得分。 6. 进行人工校验:确保测评题目的准确性和有效性。 在开发产品视角的大模型 RAG 应用时,评测环节首先要确定测评标准,包括是否理解问题、是否匹配正确政策原文、回答是否准确全面、是否生成原文以外内容、回答是否可靠以及是否支持追问等方面。对于菜品秀秀的 Bot 评测集,可以根据具体菜品的烹饪步骤、食材准备、口味特点等方面进行构建。
2025-03-18
AI测评
AI 测评主要包括以下几个方面: 1. AI Review(测试版):这是一项能让您查看代码库中近期更改以捕获潜在错误的功能。您可以单击各个审阅项在编辑器中查看完整上下文,并与 AI 聊天获取更多信息。为了让其更有利,您可以提供自定义说明让 AI 专注于特定方面,比如性能相关问题。目前有几个查看选项,如查看工作状态、查看与主分支的差异、查看上次提交。 2. 从 AI 助教到智慧学伴的应用探索:未来展望包括 AI 辅助测评,例如作业题目智能生成与优化、主观题 AI 辅助批改、基于平台数据的学情智能分析等。对于教师试讲语言的评价,可从语言的准确性等五个维度打分(每项 5 分,共 25 分),给出总分,并以和蔼可亲的语文老师角色给出 700 字左右中肯评价及改进建议。 3. 【法律法规】《促进创新的人工智能监管方法》:提到工具如保证技术和技术标准可支持供应链风险管理,评估框架时要关注法律责任在 AI 中的有效公平分配,持续收集各方证据以监测框架对 AI 供应链中不同参与者的影响,尤其关注基础模型带来的潜在挑战。并提出了一些咨询问题,如监管者在不同 AI 应用和系统中应用原则可能面临的挑战及解决方法,以及对通过现有法律框架分配 AI 法律责任的看法和改进建议。
2025-03-12
有没有大模型测评网站
以下是一些大模型测评网站: 玉宝搞过的 LLM 在线评估网站:https://www.llmrank.cn/ ,可看到国内各个闭源大模型的 HUMANEVAL 测评得分,并能与 QWEN2 对比。 Compass Arena:由上海人工智能实验室和魔搭社区联合推出,集齐了国内主流的 20 多款大模型,包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱 AI、百川智能、零一万物、月之暗面等,用户可在平台选择大模型的两两“对战”,实名或匿名对战皆可。测评地址:https://opencompass.org.cn/arena 。 中文大模型评测收集与调研相关网站: InfoQ + 极客帮:https://www.guotaixia.com/post/5124.html GAOKAOBench:https://github.com/OpenLMLab/GAOKAOBench ,是以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架。 清华安全大模型测评:http://115.182.62.166:18000 ,清华收集的一个评测集,涵盖了仇恨言论、偏见歧视言论、犯罪违法、隐私、伦理道德等八大类别,包括细粒度划分的 40 余个二级安全类别。 JioNLP 个人测评:评测数据集:https://github.com/dongrixinyu/JioNLP/wiki/LLM 评测数据集 ,考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个【智能助手】的水平。 EduTEP:华东师范大学计算机科学与技术学院 EduNLP 团队组建智能教育算法测评小组,开发智能教育可信评测平台(EduTEP)。EduTEP 对比多种大模型在教育领域中的综合性能,针对 K12 教育发布首个 CALMEDU 评测框架与 CALMEDU001 评测报告。 娱乐资本论:从实用角度出发,分析大模型在各种文本应用场景,如小红书带货文案、抖音直播文案、知乎问答、小说创作、公关信写作、歌词生成、淘宝商品详情页文案、广告宣传片文案、剧本创意策划等方面的综合表现。 全面的模型测评网站:https://lmsys.org/blog/20230503arena/
2025-02-15
你是一个专业的AI工具测评师,用过市场上的所有AI工具,请制作一个PPT,介绍一个如何使用AI进行办公提效,并根据你的经验,对使用过的AI工具进行分类对比和测评,对比结果以表格形式呈现,需要包括是否收费,国内是否可用,主要面向对象,优点和缺点,突出功能等
以下是为您制作的关于如何使用 AI 进行办公提效以及 AI 工具分类对比和测评的 PPT 内容: 幻灯片 1:封面 标题:AI 助力办公提效及工具测评 幻灯片 2:目录 AI 在办公中的应用场景 常用 AI 办公工具分类对比 各工具的详细测评 幻灯片 3:AI 在办公中的应用场景 辅助文档处理 自动生成会议记录 办公文件分类管理 语言学习纠错 幻灯片 4:常用 AI 办公工具分类对比(表格形式) |工具名称|是否收费|国内是否可用|主要面向对象|优点|缺点|突出功能| |||||||| |平安好医生 APP|部分功能收费|是|医疗工作者和患者|辅助医生诊断,提高准确性|可能存在误判|辅助疾病诊断| |腾讯会议|部分高级功能收费|是|企业和个人|自动生成会议记录,方便回顾|语音识别准确性有待提高|会议记录生成| |字体管家 APP|部分字体收费|是|设计和文字工作者|生成多种书法字体|字体版权问题|书法字体生成| |醒图 APP|部分功能收费|是|摄影爱好者|提供构图建议,提升照片质量|对复杂场景的建议有限|摄影构图建议| |游戏内商城推荐功能|部分游戏收费|是|游戏玩家|根据需求推荐道具|推荐的精准度因人而异|游戏道具推荐| |彩云天气分时预报|部分功能收费|是|出行人群|提供精准分时天气预报|天气变化的不确定性|分时天气预报| |医渡云病历分析系统|收费|是|医疗机构|分析病历辅助诊断|数据安全性|病历分析| |讯飞听见会议总结功能|部分功能收费|是|企业和个人|自动总结会议发言内容|对复杂语言理解有限|会议发言总结| |书法临摹软件|部分功能收费|是|书法爱好者|提供临摹指导和评价|对不同书法风格的适应性|临摹辅助| |下厨房口味调整功能|部分功能收费|是|烹饪爱好者|根据反馈调整菜谱口味|口味调整的局限性|菜谱口味调整| |英语流利说纠错功能|部分课程收费|是|语言学习者|帮助纠正错误|对口语表达的纠错有限|语言学习纠错| |豆瓣电影剧情分析工具|免费|是|电影爱好者|提供剧情深度解读|分析的主观性|剧情分析| |腾讯文档分类功能|部分高级功能收费|是|企业和个人|自动分类办公文件|分类准确性依赖数据|文件分类| |美丽修行定制方案功能|部分功能收费|是|美容护肤人群|定制个性化护肤方案|方案的普适性|护肤方案定制| 幻灯片 5:总结 强调 AI 在办公领域的重要性和潜力 鼓励根据实际需求选择合适的 AI 工具提升办公效率 以上 PPT 内容仅供参考,您可以根据具体需求进行修改和完善。
2025-02-10
模型能力测评方法有哪些,比如ragas这种
以下是一些常见的模型能力测评方法: 1. 从模型角度(generation): 回答真实性:评估模型结果的真实性,减少模型幻觉。 回答相关度:衡量结果与问题的相关性,避免南辕北辙。 2. 从检索角度(retrieval): 召回率(recall):考查相关信息在返回的检索内容中的包含程度,越全越好。 准确率(precision):评估返回的检索内容中有用信息的占比,越多越好。 RAGAS 是一个用于 RAG 评估的知名开源库,您可以通过了解和使用。 RAG 具有一定的优势和局限性: 优势: 能够解决大语言模型技术中输出结果的不可预测性、知识的局限性、幻觉问题、数据安全性等问题。 可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制大模型生成的文本输出,并且用户可以深入了解 LLM 如何生成最终的结果。 可以和微调结合使用。 局限性: 适合打造专才,不适合打造通才,不适合为模型提供通用领域知识。 难以让模型保持稳定的风格或结构输出,降低 token 消耗等,需要使用微调技术解决。
2025-02-07
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14