对一组对话进行分析和评分通常可以遵循以下步骤和依据:
评测任务的任务形式为:给定一组参考文档和问题,要求模型按照指定格式生成答案。问题包含多种类型。问题及答案示例:[heading3]4.评测指标[content]赛事主办方会根据选手提供的回答与参考答案(answer)进行对比,并根据关键字段命中情况进行评分。评分公式:[heading4]参数说明:[content]关键词命中总次数(Number of keylist hits):表示在题目中命中keylist中元素的总次数(包括多小题)。关键词总数(Number of keylist items)表示keylist中定义的关键字段总数。小题数(Subquestions per question):每个题目包含的小题数量(例如,每题包含3小题)。得分(Score):表示最终得分。结果完全正确的回答得满分1分,部分正确则根据命中比例计算得分。示例问题(1道题目,含4个小题)以下是一组包含多个小题的多轮对话题目:组委会提供-参考答案选手提交答案-评测示例<答案正确>评测计算:1.第一题:300380完全正确,得分1分。2.第二题:2,2024年9月27日,2024年9月30日完全正确,得分1分。3.第三题:【金融科技+银行+华为+国产软件】完全正确,得分1分。4.第四题:大成中证360互联网,大数据100指数型证券投资基金,得分1分。总得分计算:小题数:4。得分:4/4=1.0(满分)
虽然聊天补全API已优化为处理多回合对话,但它也可用于非聊天场景。例如,对于情绪分析场景,可以使用以下提示:|系统消息|用户|Assistant||-|-|-||你是一名助手,旨在分析语音数据中的情绪。用户将粘贴一串文本,你将对讲者的响应进行评估。给出1-10的评分(10为最高)。解释给出此评分的原因。|嗨,感谢你致电Contoso药店,我今天和谁通话?我了解你的挫败感,玛丽。你能告诉我你想要实现什么目标吗?好的,很高兴帮你看一下,请稍等片刻。我在这里看到你曾经使用过普通立普妥是吗?好的,那么我看到你的医生在2021年停止开这些药物的处方了。实际上是这样吗?好的,让我为你检查一下。因为有时候系统中会出现漏洞,并没有被报告出来。请稍等片刻,让我看看这里是否有记录。所以根据最新提供给我们的医生办公室记录显示,在2012年至2021年期间,你的医生曾经给你开过这些药物处方。好的,在最新记录中显示,现在医生已经更换了不同种类的药物–二甲双胍。请问我们需要帮忙准备并发放500毫克二甲双胍处方给你吗?不客气玛丽,请告诉我们今天还有什么可以帮到你的。|情绪评分:8<br>此文本中的讲者在解决客户关注的问题时似乎很有礼貌、有帮助和耐心。他们花时间检查信息,提供明确的解释,并提供协助。但是,评分不是10,因为对话的某些部分仍有不确定性的暗示,这可能无法向客户传达完全的信心。|
作者:鱼得水「超级AI助理打造计划」活动内容分享活动介绍:[智谱BigModel共学营第二期:超级AI助理打造计划](https://waytoagi.feishu.cn/wiki/RKLxwQ97Ai632hkgaU2cctVFnSb)活动内容:1.使用BigModel搭建智能体https://open.bigmodel.cn/2.将搭建好的智能体接入微信机器人活动过程:1.首先,将调试好的智能体机器人拉入微信群,由梦飞老师向机器人发出提问(共10个问题)2.机器人会逐一回答这些问题。梦飞老师会从微信群中挑选出每个问题下最出色的前五个回答,并将其整理成问卷形式。3.接下来,所有群成员可以通过填写这份问卷,匿名地对智能体的回答进行投票。4.最后,统计所有答案的得票数,并根据得票数的高低,依次确定本次比赛的一等奖、二等奖和三等奖获得者。很高兴成为此次活动的一等奖得主,本文主要分享我对参与此次比赛的一些理解和实践[heading1]从“题”出发[content]在看到这个活动内容后我产生了以下分析:根据内容说明和问题举例,可以知道此次为问答对话场景,考验的是机器人对问题的理解和是否能够准确回答问题在真实的对话场景下,一般情况下不会进行长文本回复,而是发送一个完整的句子进行回复根据回答的真实性和有趣程度进行评分,考验的是生成内容的是否拟人或者是否有内涵看到问题举例,第一反应想到了弱智吧问题https://zhuanlan.zhihu.com/p/475723603可以使用弱智吧问题对LLM进行测试,从而评价该提示词的生成效果