Chat with Wiki - 大模型评分

Answer

大模型评分通常会根据不同的赛事或评估体系有所差异。

在金融行业的大模型挑战赛中，评测任务形式为给定一组参考文档和问题，要求模型按指定格式生成答案。赛事主办方会根据选手提供的回答与参考答案对比，并根据关键字段命中情况进行评分。评分公式涉及关键词命中总次数、关键词总数、小题数和得分等参数。例如在示例问题中，根据每个小题的回答正确情况计算得分，完全正确得满分 1 分，部分正确则根据命中比例计算得分。

在其他的大模型评估方面：

FlagEval（天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。地址：https://github.com/FlagOpen/FlagEval 。
C-Eval 构造了一个覆盖多个学科的中文知识和推理型测试集，并给出了当前主流中文 LLM 的评测结果。地址：https://github.com/SJTU-LIT/ceval 。
SuperCLUElyb 是中文通用大模型匿名对战评价基准，以众包方式提供匿名、随机的对战，并发布了初步结果和基于 Elo 评级系统的排行榜。地址：https://github.com/CLUEbenchmark/SuperCLUElyb 。

斯坦福发布的大模型排行榜 AlpacaEval 支持两种模式的模型评估方式：alpaca_eval 和 alpaca_eval evaluate_from_model 。评测过程分为选择评估集并计算输出、计算 golden 输出、通过指定的自动标注器计算胜率等步骤。相对于人工标注，全自动化的 AlpacaEval 具有较低的经济成本和时间成本。

Content generated by AI large model, please carefully verify (powered by aily)

References

金融行业 · 大模型挑战赛｜用大模型理解金融市场

评测任务的任务形式为：给定一组参考文档和问题，要求模型按照指定格式生成答案。问题包含多种类型。问题及答案示例：[heading3]4.评测指标[content]赛事主办方会根据选手提供的回答与参考答案（answer）进行对比，并根据关键字段命中情况进行评分。评分公式：[heading4]参数说明：[content]关键词命中总次数(Number of keylist hits)：表示在题目中命中keylist中元素的总次数（包括多小题）。关键词总数(Number of keylist items)表示keylist中定义的关键字段总数。小题数(Subquestions per question)：每个题目包含的小题数量（例如，每题包含3小题）。得分(Score)：表示最终得分。结果完全正确的回答得满分1分，部分正确则根据命中比例计算得分。示例问题（1道题目，含4个小题）以下是一组包含多个小题的多轮对话题目：组委会提供-参考答案选手提交答案-评测示例<答案正确>评测计算：1.第一题：300380完全正确，得分1分。2.第二题：2，2024年9月27日，2024年9月30日完全正确，得分1分。3.第三题：【金融科技+银行+华为+国产软件】完全正确，得分1分。4.第四题：大成中证360互联网，大数据100指数型证券投资基金，得分1分。总得分计算：小题数：4。得分：4/4=1.0（满分）

LLM开源中文大语言模型及数据集集合

FlagEval（天秤）大模型评测体系及开放平台地址：[https://github.com/FlagOpen/FlagEval](https://github.com/FlagOpen/FlagEval)简介：旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。FlagEval（天秤）创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。C-Eval:构造中文大模型的知识评估基准：地址：[https://github.com/SJTU-LIT/ceval](https://github.com/SJTU-LIT/ceval)简介：构造了一个覆盖人文，社科，理工，其他专业四个大方向，52个学科（微积分，线代…），从中学到大学研究生以及职业考试，一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。SuperCLUElyb:SuperCLUE琅琊榜地址：[https://github.com/CLUEbenchmark/SuperCLUElyb](https://github.com/CLUEbenchmark/SuperCLUElyb)简介：中文通用大模型匿名对战评价基准，这是一个中文通用大模型对战评价基准，它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。

斯坦福发布大模型排行榜AlpacaEval

图注：人类一致性：标注者与交叉标注集中人类多数票之间的一致性。价格：每1000个标注的平均价格。时间：计算1000个标注所需的平均时间。相对于人工标注，全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外，还有一个关键问题：什么评估数据可以最好地区分模型。团队从统计角度出发，在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如，我们看到Self-Instruct数据集产生的统计能力最小，这表明可以从评估集中删除该数据集。图注：不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式：alpaca_eval：直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model：根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步：1.选择一个评估集，并计算指定为model_outputs的输出。默认情况下，我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下，在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器，它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器，使用者还需要在环境配置中设定API_KEY。