Chat with Wiki - WayToAGI

目前大模型的能力排行情况较为复杂，以下为您提供部分相关信息： 8 月正式上线的国内大模型包括北京的百度（文心一言）https://wenxin.baidu.com 、抖音（云雀大模型）https://www.doubao.com 、智谱 AI（GLM 大模型）https://chatglm.cn 、中科院（紫东太初大模型）https://xihe.mindspore.cn 、百川智能（百川大模型）https://www.baichuanai.com/ ，上海的商汤（日日新大模型）https://www.sensetime.com/ 、MiniMax（ABAB 大模型）https://api.minimax.chat 、上海人工智能实验室（书生通用大模型）https://internai.org.cn 。在聊天状态下，能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax ；目前不能进行自然语言交流的有昇思、书生；受限制使用的有 MiniMax 。特色功能方面，昇思能生图，MiniMax 能语音合成。阿里通义千问、360 智脑、讯飞星火等不在首批获批名单中，广东地区获批公司分别为华为、腾讯，科大讯飞系其他地区获批产品。 2023 年度中文大模型基准测评报告显示，在语言与知识的测评中，GPT4 Turbo 依然领先，是唯一超过 90 分的大模型。国内大模型也表现相对较好，有 14 个模型的得分高于 GPT3.5，有 9 个模型的得分高于 GeminiPro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 13 位，较为接近 GPT4。在开源模型中，零一万物的 Yi34BChat、阿里云的 Qwen72BChat、百川智能的 Baichuan213BChat 取得了不错的成绩，均超过了 50 分，分列国内模型的 13 名。总体来看，在中文语言与知识能力上，国内大模型已基本追赶上国外头部大模型。关于大模型的评测榜单还有： Open LLM Leaderboard：地址，由 HuggingFace 组织，目前已评估了较多主流的开源 LLM 模型，评估主要包括 AI2 Reasoning Challenge,HellaSwag,MMLU,TruthfulQA 四个数据集上的表现，主要以英文为主。 chinesellmbenchmark：地址，覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b 等开源大模型，多维度能力评测，不仅提供能力评分排行榜，也提供所有模型的原始输出结果。 SafetyPrompts：地址，由清华大学提出，是一个关于 LLM 安全评测 benchmark，包括安全评测平台等，用于评测和提升大模型的安全性，囊括了多种典型的安全场景和指令攻击的 prompt。