Chat with Wiki - 大语言模型能力排行榜

Answer

以下是一些大语言模型能力排行榜的相关信息：

Open LLM Leaderboard：
- 地址：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- 简介：由HuggingFace组织的一个LLM评测榜单，目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge、HellaSwag、MMLU、TruthfulQA四个数据集上的表现，主要以英文为主。
chinese-llm-benchmark：
- 地址：https://github.com/jeinlee1991/chinese-llm-benchmark
- 简介：中文大模型能力评测榜单，覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b等开源大模型，多维度能力评测。不仅提供能力评分排行榜，也提供所有模型的原始输出结果。
聊天机器人竞技场：由伯克利的一个团队管理，根据ELO评级对不同的语言模型进行排名，计算ELO的方式与国际象棋中的计算方式非常相似。
智源评测：豆包模型在其中表现出色，荣获大语言模型第一，视觉理解第二、文生图第二、文生视频第二，在匿名投票竞技场中排名第二，仅次于OpenAI。
- 地址：https://flageval.baai.ac.cn/#/leaderboard

Content generated by AI large model, please carefully verify (powered by aily)

References

Open LLM Leaderboard：地址：[https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)简介：由HuggingFace组织的一个LLM评测榜单，目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge,HellaSwag,MMLU,TruthfulQA四个数据集上的表现，主要以英文为主。chinese-llm-benchmark：地址：[https://github.com/jeinlee1991/chinese-llm-benchmark](https://github.com/jeinlee1991/chinese-llm-benchmark)简介：中文大模型能力评测榜单：覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b等开源大模型，多维度能力评测。不仅提供能力评分排行榜，也提供所有模型的原始输出结果！Safety-Prompts：地址：[https://github.com/thu-coai/Safety-Prompts](https://github.com/thu-coai/Safety-Prompts)简介：由清华大学提出的一个关于LLM安全评测benchmark，包括安全评测平台等，用于评测和提升大模型的安全性，囊括了多种典型的安全场景和指令攻击的prompt。

文章：Andrej Karpathy 亲授：大语言模型入门

我想提的另一件事是，我之前天真地描述了人类完成所有这些体力工作的过程。但这并不完全正确，而且它越来越不正确。这是因为这些语言模型同时变得更好。你基本上可以使用人机协作来创建这些标签，随着效率和正确性的提高。例如，你可以使用这些语言模型来获取示例答案。然后人们会挑选部分答案来创建一种单一的最佳答案。或者你可以要求这些模型尝试检查你的工作。或者你可以尝试让他们进行比较。然后你就像是一个监督角色。所以这是一种你可以确定的滑块。而且这些模型越来越好。我们正在将滑块向右移动。比较、标记文档、RLHF、合成数据、排行榜好的，最后，我想向你展示当前领先的大型语言模型的排行榜。例如，这就是聊天机器人竞技场。它由伯克利的一个团队管理。他们在这里所做的是根据ELO评级对不同的语言模型进行排名。计算ELO的方式与国际象棋中的计算方式非常相似。所以不同的棋手互相对弈。根据彼此的胜率，你可以计算他们的ELO分数。你可以使用语言模型做完全相同的事情。所以你可以访问这个网站，输入一些问题，你会得到两个模型的响应，你不知道它们是由什么模型生成的，然后你选择获胜者。然后根据谁赢谁输，你就可以计算出ELO分数。所以越高越好。所以你在这里看到的是，拥挤在顶部的是专有模型。这些是封闭模型，你无法访问权重，它们通常位于网络界面后面。这是OpenAI的GPT系列，以及Anthropic的Claude系列。还有其他公司的一些其他系列。所以这些是目前表现最好的模型。然后就在其下方，你将开始看到一些开放权重的模型。因此，这些权重是可用的，人们对它们有更多了解，通常有相关论文可用。例如，Meta的Llama2系列就是这种情况。或者在底部，你可以看到Zephyr 7b Beta，它基于法国另一家初创公司的Mistral系列。

XiaoHu.AI日报

用户可通过文字+哼唱、敲打节奏、手势等指导模型生成精确音频，如模仿赛车声或小水流变瀑布声。基于扩散模型，结合文本和控制信号生成音频，适用于节奏模仿及其他多种输入形式。?[https://hugofloresgarcia.art/sketch2sound/](https://hugofloresgarcia.art/sketch2sound/)?[https://arxiv.org/pdf/2412.08550](https://arxiv.org/pdf/2412.08550)?[https://x.com/imxiaohu/status/1871194057562849682](https://x.com/imxiaohu/status/1871194057562849682)4⃣️?豆包模型能力大提升，霸榜智源评测豆包荣获大语言模型第一，视觉理解第二、文生图第二、文生视频第二，全方面表现亮眼。在匿名投票竞技场中排名第二，仅次于OpenAI，展示强大实力。豆包解决了汉字生成痛点，进步速度飞快，引发用户好评。?[https://flageval.baai.ac.cn/#/leaderboard](https://flageval.baai.ac.cn/#/leaderboard)?[https://x.com/imxiaohu/status/1871187712943984657](https://x.com/imxiaohu/status/1871187712943984657)5⃣️?Anthropic公布BoN越狱算法：攻破AI模型限制