以下是一些大语言模型能力排行榜的相关信息:
Open LLM Leaderboard:地址:[https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)简介:由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge,HellaSwag,MMLU,TruthfulQA四个数据集上的表现,主要以英文为主。chinese-llm-benchmark:地址:[https://github.com/jeinlee1991/chinese-llm-benchmark](https://github.com/jeinlee1991/chinese-llm-benchmark)简介:中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!Safety-Prompts:地址:[https://github.com/thu-coai/Safety-Prompts](https://github.com/thu-coai/Safety-Prompts)简介:由清华大学提出的一个关于LLM安全评测benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的prompt。
我想提的另一件事是,我之前天真地描述了人类完成所有这些体力工作的过程。但这并不完全正确,而且它越来越不正确。这是因为这些语言模型同时变得更好。你基本上可以使用人机协作来创建这些标签,随着效率和正确性的提高。例如,你可以使用这些语言模型来获取示例答案。然后人们会挑选部分答案来创建一种单一的最佳答案。或者你可以要求这些模型尝试检查你的工作。或者你可以尝试让他们进行比较。然后你就像是一个监督角色。所以这是一种你可以确定的滑块。而且这些模型越来越好。我们正在将滑块向右移动。比较、标记文档、RLHF、合成数据、排行榜好的,最后,我想向你展示当前领先的大型语言模型的排行榜。例如,这就是聊天机器人竞技场。它由伯克利的一个团队管理。他们在这里所做的是根据ELO评级对不同的语言模型进行排名。计算ELO的方式与国际象棋中的计算方式非常相似。所以不同的棋手互相对弈。根据彼此的胜率,你可以计算他们的ELO分数。你可以使用语言模型做完全相同的事情。所以你可以访问这个网站,输入一些问题,你会得到两个模型的响应,你不知道它们是由什么模型生成的,然后你选择获胜者。然后根据谁赢谁输,你就可以计算出ELO分数。所以越高越好。所以你在这里看到的是,拥挤在顶部的是专有模型。这些是封闭模型,你无法访问权重,它们通常位于网络界面后面。这是OpenAI的GPT系列,以及Anthropic的Claude系列。还有其他公司的一些其他系列。所以这些是目前表现最好的模型。然后就在其下方,你将开始看到一些开放权重的模型。因此,这些权重是可用的,人们对它们有更多了解,通常有相关论文可用。例如,Meta的Llama2系列就是这种情况。或者在底部,你可以看到Zephyr 7b Beta,它基于法国另一家初创公司的Mistral系列。
用户可通过文字+哼唱、敲打节奏、手势等指导模型生成精确音频,如模仿赛车声或小水流变瀑布声。基于扩散模型,结合文本和控制信号生成音频,适用于节奏模仿及其他多种输入形式。?[https://hugofloresgarcia.art/sketch2sound/](https://hugofloresgarcia.art/sketch2sound/)?[https://arxiv.org/pdf/2412.08550](https://arxiv.org/pdf/2412.08550)?[https://x.com/imxiaohu/status/1871194057562849682](https://x.com/imxiaohu/status/1871194057562849682)4⃣️?豆包模型能力大提升,霸榜智源评测豆包荣获大语言模型第一,视觉理解第二、文生图第二、文生视频第二,全方面表现亮眼。在匿名投票竞技场中排名第二,仅次于OpenAI,展示强大实力。豆包解决了汉字生成痛点,进步速度飞快,引发用户好评。?[https://flageval.baai.ac.cn/#/leaderboard](https://flageval.baai.ac.cn/#/leaderboard)?[https://x.com/imxiaohu/status/1871187712943984657](https://x.com/imxiaohu/status/1871187712943984657)5⃣️?Anthropic公布BoN越狱算法:攻破AI模型限制