大模型评分通常会根据不同的赛事或评估体系有所差异。
在金融行业的大模型挑战赛中,评测任务形式为给定一组参考文档和问题,要求模型按指定格式生成答案。赛事主办方会根据选手提供的回答与参考答案对比,并根据关键字段命中情况进行评分。评分公式涉及关键词命中总次数、关键词总数、小题数和得分等参数。例如在示例问题中,根据每个小题的回答正确情况计算得分,完全正确得满分 1 分,部分正确则根据命中比例计算得分。
在其他的大模型评估方面:
斯坦福发布的大模型排行榜 AlpacaEval 支持两种模式的模型评估方式:alpaca_eval 和 alpaca_eval evaluate_from_model 。评测过程分为选择评估集并计算输出、计算 golden 输出、通过指定的自动标注器计算胜率等步骤。相对于人工标注,全自动化的 AlpacaEval 具有较低的经济成本和时间成本。
评测任务的任务形式为:给定一组参考文档和问题,要求模型按照指定格式生成答案。问题包含多种类型。问题及答案示例:[heading3]4.评测指标[content]赛事主办方会根据选手提供的回答与参考答案(answer)进行对比,并根据关键字段命中情况进行评分。评分公式:[heading4]参数说明:[content]关键词命中总次数(Number of keylist hits):表示在题目中命中keylist中元素的总次数(包括多小题)。关键词总数(Number of keylist items)表示keylist中定义的关键字段总数。小题数(Subquestions per question):每个题目包含的小题数量(例如,每题包含3小题)。得分(Score):表示最终得分。结果完全正确的回答得满分1分,部分正确则根据命中比例计算得分。示例问题(1道题目,含4个小题)以下是一组包含多个小题的多轮对话题目:组委会提供-参考答案选手提交答案-评测示例<答案正确>评测计算:1.第一题:300380完全正确,得分1分。2.第二题:2,2024年9月27日,2024年9月30日完全正确,得分1分。3.第三题:【金融科技+银行+华为+国产软件】完全正确,得分1分。4.第四题:大成中证360互联网,大数据100指数型证券投资基金,得分1分。总得分计算:小题数:4。得分:4/4=1.0(满分)
FlagEval(天秤)大模型评测体系及开放平台地址:[https://github.com/FlagOpen/FlagEval](https://github.com/FlagOpen/FlagEval)简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval(天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。C-Eval:构造中文大模型的知识评估基准:地址:[https://github.com/SJTU-LIT/ceval](https://github.com/SJTU-LIT/ceval)简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。SuperCLUElyb:SuperCLUE琅琊榜地址:[https://github.com/CLUEbenchmark/SuperCLUElyb](https://github.com/CLUEbenchmark/SuperCLUElyb)简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。
图注:人类一致性:标注者与交叉标注集中人类多数票之间的一致性。价格:每1000个标注的平均价格。时间:计算1000个标注所需的平均时间。相对于人工标注,全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外,还有一个关键问题:什么评估数据可以最好地区分模型。团队从统计角度出发,在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如,我们看到Self-Instruct数据集产生的统计能力最小,这表明可以从评估集中删除该数据集。图注:不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式:alpaca_eval:直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model:根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步:1.选择一个评估集,并计算指定为model_outputs的输出。默认情况下,我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下,在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器,它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器,使用者还需要在环境配置中设定API_KEY。