Chat with Wiki - 模型打分

Answer

评估模型输出通常需要一个“黄金标准”的答案。假设我们清楚某个问题的正确答案应包含哪些事实（得分点），就可以使用模型查询和计算的方法总结这些得分点来为模型输出质量打分。这是监督学习的一部分，能让模型在人类指导下改善性能。评估过程通常由另一个模型执行，以降低人力成本。

例如，杨志磊对各模型的答辩状 prompt 进行了评测，按照满分 10 分的标准，各模型得分如下：ChatGPT 为 6 分，Bard 为 5.5 分，Kimi chat 为 6.5 分，智谱清言为 5 分，讯飞星火为 5 分，文心一言 3.5 为 4 分，通义千问为 6.5 分，腾讯混元为 5 分，百川大模型为 7 分，豆包 AI 为 5 分，Copilot 为 9 分，Claude 2.0 为 6 分。

斯坦福发布的大模型排行榜 AlpacaEval 相比其他 LLM 自动评测器，如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 及人类评估，有其特别之处。在 AlpacaEval set 上，通过与 2.5K 条人工标注结果对比，其采用的 GPT-4 评测方式取得了最高的人类一致性、较低的误差，且只需约 1/22 的人类标注成本。另外，团队还从统计角度研究了什么评估数据能最好地区分模型，并发现 Self-Instruct 数据集产生的统计能力最小，可从评估集中删除。AlpacaEval 支持两种模式的模型评估方式。

Content generated by AI large model, please carefully verify (powered by aily)

References

OpenAI：GPT_最佳实践中文大白话版本_未来力场编译.pdf

评估模型输出的时候，需要你弄一个“⻩⾦标准”的答案Evaluatemodel outputswith reference togold-standard answersSuppose it is known that the correct answer to a question should make reference to aspecific set of known facts.Thenwe can use a model query to count howmany of therequired facts are included in the answer.（这段没有逐字翻译）假设我们作为⼈类清楚地知道，当我们提出某个问题时，模型应该给我们输出哪些事实（得分点）。那么，我们就可以使⽤模型查询和计算的⽅法，来总结这些得分点，从⽽给模型的输出质量打分。这个过程是监督学习的一部分，它能让模型通过⼈类的指导来改善其性能。评估模型输出的过程也是由另一个模型来执⾏的（⽽不是⼈）。这是一个⾃动化的评估过程。⽐如，一个模型（可能是同一个模型的不同实例或不同的模型）负责评估另一个模型的输出。否则，做⼤规模的模型训练的⼈⼒成本就太⾼了。OpenAI提供了一些prompt⽰例，我们这⾥略去了。有兴趣可以参考原链接。附录OpenAI Playground什么，怎么用？什么是OpenAI Playground...一个⾯向开发⼈员和研究⼈员的“游乐场”在Playground上可以按⾃⼰需求更改设置。这是最好的一点。8、频率惩罚和存在惩罚（Frequency penalty and Presence penalty）这两个参数都是⽤来调控⽂本⽣成过程中某些词汇出现的频率和次数的。

杨志磊：律师答辩状prompt各模型评测

如果按照满分10分的话|ChatGPT|6| |-|-| |Bard|5.5| |Kimi chat|6.5| |智谱清言|5| |讯飞星火|5| |文心一言3.5|4| |通义千问|6.5| |腾讯混元|5| |百川大模型|7| |豆包AI|5| |Copilot|9| |Claude 2.0|6|

斯坦福发布大模型排行榜AlpacaEval

那么相比其他的LLM自动评测器，如alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4，还有人类（humans）评估，斯坦福的AlpacaEval评测器有什么特别？在AlpacaEval set上，斯坦福AlpacaEval团队通过与2.5K条人工标注结果（每个指令平均包含4个人工标注）对比，研究人员评估了不同的自动标注器的性能。对比结果显示，AlpacaEval采用的GPT-4评测方式取得了最高的人类一致性，以及较低的误差，并仅需约1/22的人类标注成本。图注：人类一致性：标注者与交叉标注集中人类多数票之间的一致性。价格：每1000个标注的平均价格。时间：计算1000个标注所需的平均时间。相对于人工标注，全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外，还有一个关键问题：什么评估数据可以最好地区分模型。团队从统计角度出发，在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如，我们看到Self-Instruct数据集产生的统计能力最小，这表明可以从评估集中删除该数据集。图注：不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式：