以下是关于模型评估的相关内容:
斯坦福发布了大模型排行榜 AlpacaEval 。
AlpacaEval 直接根据目标模型输出的响应来评估模型,其 evaluate_from_model 可根据 HuggingFace 已注册模型或 API 提供商来端到端评测模型。评测过程分为以下 3 步:
1. 选择一个评估集,并计算指定为 model_outputs 的输出。默认使用来自 AlpacaEval 的 805 个示例。
2. 计算 golden 输出 reference_outputs 。默认在 AlpacaEval 上使用 textdavinci003 的输出。
3. 通过 annotators_config 选择指定的自动标注器,它将根据 model_outputs 和 reference_outputs 计算胜率。建议使用 alpaca_eval_gpt4 或 claude ,使用者还需在环境配置中设定 API_KEY 。
目前,AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具。但它仍不是一个全面的模型能力评测系统,存在一些局限性,如指令比较简单、评分可能更偏向于风格而非事实、没有衡量模型可能造成的危害。
相比其他的 LLM 自动评测器,如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 及人类评估,斯坦福的 AlpacaEval 评测器在 AlpacaEval set 上,通过与 2.5K 条人工标注结果(每个指令平均包含 4 个人工标注)对比,其采用的 GPT4 评测方式取得了最高的人类一致性,以及较低的误差,并仅需约 1/22 的人类标注成本。
另外,关于什么评估数据可以最好地区分模型,团队从统计角度出发,在 AlpacaEval 的所有子集上进行了检验。
在模型评估方面,还包括模型能力的基准和评估,需考虑无需额外训练的适配任务数量、学习新的独特任务的可适应性、自主程度、可扩展性、可使用的工具等。对于具有系统风险的通用人工智能模型,委员会应考虑模型的参数数量、数据集的质量或大小、训练模型所用的计算量等标准。还应说明模型要件及其开发过程,包括将通用人工智能模型纳入人工智能系统所需的技术手段等。
2024-08-11