F1 值是一种综合考虑准确率和召回率的平衡指标。准确率是指正确预测的样本数占总样本数的比例;召回率是指真正例被正确预测出来的比例。F1 值通过结合准确率和召回率来更全面地评估模型的性能。
2.2.1最常见的一些自动化评估指标准确性指标:准确率(Accuracy):正确预测的样本数占总样本数的比例。召回率(Recall):真正例被正确预测出来的比例。F1值:综合考虑准确率和召回率的平衡指标。性能指标:推理速度:测量模型处理一个或一批输入数据所需的时间,反映其效率。资源利用率:如计算资源(CPU、GPU等)的使用情况。泛化能力评估:交叉验证:将数据集划分成多个子集,进行多次训练和验证,以观察模型在不同数据子集上的表现。比较基准:与已有的同类优秀模型进行比较,查看在相同任务和数据集上的表现差异。稳定性评估:多次运行模型,观察结果的一致性和波动情况。2.2.2进阶的自动化评估指标答案相似度:1、用embedding模型提取truths与answer的文本语义向量2、计算向量之间的相似度一般用余弦相似度(需要人工标注)答案相关度:1、利用LLM通过答案反推出问题。2、用embedding模型提取answer与生成问题的文本语义向量3、计算实际问题和生成问题向量之间的相似度(不需要标注)语境精确率其实就是有帮助的文档数量与所有被检索出的文档数量的比例。他体现的额是RAG系统对文档检索的精准度。会惩罚搜索一大堆没有用的文档给下游的行为1、用LLM判断contests对Question有用的数量。假设有帮助的为P