目前大模型的能力排行情况较为复杂,以下为您提供部分相关信息:
8 月正式上线的国内大模型包括北京的百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ ,上海的商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 。在聊天状态下,能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax ;目前不能进行自然语言交流的有昇思、书生;受限制使用的有 MiniMax 。特色功能方面,昇思能生图,MiniMax 能语音合成。阿里通义千问、360 智脑、讯飞星火等不在首批获批名单中,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。
2023 年度中文大模型基准测评报告显示,在语言与知识的测评中,GPT4 Turbo 依然领先,是唯一超过 90 分的大模型。国内大模型也表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 GeminiPro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 13 位,较为接近 GPT4。在开源模型中,零一万物的 Yi34BChat、阿里云的 Qwen72BChat、百川智能的 Baichuan213BChat 取得了不错的成绩,均超过了 50 分,分列国内模型的 13 名。总体来看,在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型。
关于大模型的评测榜单还有:
Open LLM Leaderboard:地址 ,由 HuggingFace 组织,目前已评估了较多主流的开源 LLM 模型,评估主要包括 AI2 Reasoning Challenge,HellaSwag,MMLU,TruthfulQA 四个数据集上的表现,主要以英文为主。
chinesellmbenchmark:地址 ,覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b 等开源大模型,多维度能力评测,不仅提供能力评分排行榜,也提供所有模型的原始输出结果。
SafetyPrompts:地址 ,由清华大学提出,是一个关于 LLM 安全评测 benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的 prompt。
2025-03-28