Chat with Wiki - 大模型评测

Answer

以下是关于大模型评测的相关信息：

FlagEval（天秤）大模型评测体系及开放平台：
- 地址：https://github.com/FlagOpen/FlagEval
- 简介：旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用 AI 方法实现对主观评测的辅助，大幅提升评测的效率和客观性。创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。
C-Eval：构造中文大模型的知识评估基准：
- 地址：https://github.com/SJTU-LIT/ceval
- 简介：构造了一个覆盖人文，社科，理工，其他专业四个大方向，52 个学科（微积分，线代…），从中学到大学研究生以及职业考试，一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。
SuperCLUElyb：SuperCLUE 琅琊榜
- 地址：https://github.com/CLUEbenchmark/SuperCLUElyb
- 简介：中文通用大模型匿名对战评价基准，这是一个中文通用大模型对战评价基准，它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。

此外，还有小七姐对文心一言 4.0、智谱清言、KimiChat 的小样本测评，测评机制包括：

测评目标：测评三家国产大模型，以同组提示词下 ChatGPT 4.0 生成的内容做对标参照。
能力考量：复杂提示词理解和执行（结构化提示词）、推理能力（CoT 表现）、文本生成能力（写作要求执行）、提示词设计能力（让模型设计提示词）、长文本归纳总结能力（论文阅读）。
测评轮次：第一轮是复杂提示词理解和执行，包括 Markdown+英文 title 提示词测试、Markdown+中文 title 提示词测试、中文 title+自然段落提示词测试；第二轮是推理能力（CoT 表现）；第三轮是文本生成能力（写作要求执行）；第四轮是提示词设计能力（让模型设计提示词）；第五轮是长文本归纳总结能力（论文阅读）。

测试大模型质量好坏时，常用的问题包括检索和归纳、推理性、有日期相关历史事件等。以下是几个专业做模型测评的网站：https://lmsys.org/blog/2023-05-03-arena/

Content generated by AI large model, please carefully verify (powered by aily)

References

LLM开源中文大语言模型及数据集集合

FlagEval（天秤）大模型评测体系及开放平台地址：[https://github.com/FlagOpen/FlagEval](https://github.com/FlagOpen/FlagEval)简介：旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。FlagEval（天秤）创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。C-Eval:构造中文大模型的知识评估基准：地址：[https://github.com/SJTU-LIT/ceval](https://github.com/SJTU-LIT/ceval)简介：构造了一个覆盖人文，社科，理工，其他专业四个大方向，52个学科（微积分，线代…），从中学到大学研究生以及职业考试，一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。SuperCLUElyb:SuperCLUE琅琊榜地址：[https://github.com/CLUEbenchmark/SuperCLUElyb](https://github.com/CLUEbenchmark/SuperCLUElyb)简介：中文通用大模型匿名对战评价基准，这是一个中文通用大模型对战评价基准，它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。

小七姐：文心一言4.0、智谱清言、KimiChat 小样本测评

测评三家国产大模型，以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)[heading3]二、能力考量[content]复杂提示词理解和执行（结构化提示词）推理能力（CoT表现）文本生成能力（写作要求执行）提示词设计能力（让模型设计提示词）长文本归纳总结能力（论文阅读）[heading3]三、测评轮次[heading4]第一轮：复杂提示词理解和执行[content]1.任务一：Markdown+英文title提示词测试，1个任务4个模型（4次）2.任务二：Markdown+中文title提示词测试，1个任务4个模型（4次）3.任务三：中文title+自然段落提示词测试，1个任务4个模型（4次）[heading4]第二轮：推理能力（CoT表现）[content]逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第三轮：文本生成能力（写作要求执行）[content]根据提示词生成文本任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第四轮：提示词设计能力（让模型设计提示词）[content]按提示词要求生成提示词，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第五轮：长文本归纳总结能力（论文阅读）[content]按提供的长文本（上传或在线）进行归纳总结，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）

测试各种LLM

针对大模型的评估是最近一个很火的领域请问大家一般用什么问题，测试不同LLM模型的质量好坏大部分同学会用：1.检索和归纳2推理性3有日期相关历史事件等问题以下是几个专业做模型测评的网站1.这里有个网站做的非常全面：https://lmsys.org/blog/2023-05-03-arena/