Chat with Wiki - 什么模型

Answer

以下为一些常见的模型：

智谱·AI 开源模型：
- WebGLM-10B：利用百亿参数通用语言模型（GLM）提供高效、经济的网络增强型问题解答系统，旨在通过将网络搜索和检索功能集成到预训练的语言模型中，改进现实世界的应用部署。代码链接：WebGLM，模型下载：Huggingface
- WebGLM-2B：代码链接：Huggingface
- MathGLM-2B：在训练数据充足的情况下，20 亿参数的 MathGLM 模型能够准确地执行多位算术运算，准确率几乎可以达到 100%，其结果显著超越最强大语言模型 GPT-4 在相同测试数据上 18.84%的准确率。代码链接：MathGLM，模型下载：THU-Cloud
- MathGLM-500M：模型下载：THU-Cloud
- MathGLM-100M：模型下载：THU-Cloud
- MathGLM-10M：模型下载：THU-Cloud
- MathGLM-Large：采用 GLM 的不同变体作为骨干来训练 MathGLM，包括具有 335M 参数的 GLM-large 和 GLM-10B。此外，还使用 ChatGLM-6B 和 ChatGLM2-6B 作为基座模型来训练 MathGLM。这些骨干模型赋予 MathGLM 基本的语言理解能力，使其能够有效理解数学应用题中包含的语言信息。模型下载：THU-Cloud
OpenAI 模型：
- GPT-4 Beta：一组改进 GPT-3.5 的模型，可以理解和生成自然语言或代码
- GPT-3.5：一组改进 GPT-3 的模型，可以理解并生成自然语言或代码
- DALL·E Beta：可以在给定自然语言提示的情况下生成和编辑图像的模型
- Whisper Beta：可以将音频转换为文本的模型
- Embeddings：一组可以将文本转换为数字形式的模型
- Codex Limited Beta：一组可以理解和生成代码的模型，包括将自然语言转换为代码
- Moderation：可以检测文本是否敏感或不安全的微调模型
- GPT-3：一组可以理解和生成自然语言的模型
Qwen 2 模型：
- 包括 5 种尺寸的预训练和指令调整模型，分别是 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。
- 除英语和中文外，还接受过另外 27 种语言的数据训练。
- 在大量基准评估中表现出最先进的性能，代码和数学性能显著提高，全面超越 llama3。
- 增大了上下文长度支持，最高达到 128K tokens（Qwen2-72B-Instruct）。其中 72B 和 7B 可处理 128k 上下文，57B-A14B 可处理 64k 上下文，0.5B 和 1.5B 可处理 32k 上下文。
- 在 MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench 等国际权威测评中，Qwen2-72B 获十几项世界冠军，超过美国的 Llama3。

Content generated by AI large model, please carefully verify (powered by aily)

References

以下模型，以便用户使用我们多元化的产品。|模型|介绍|代码链接|模型下载||-|-|-|-||WebGLM-10B|利用百亿参数通用语言模型（GLM）提供高效、经济的网络增强型问题解答系统。它旨在通过将网络搜索和检索功能集成到预训练的语言模型中，改进现实世界的应用部署。|[WebGLM](https://github.com/THUDM/WebGLM)|[Huggingface](https://huggingface.co/THUDM/WebGLM)||WebGLM-2B|||[Huggingface](https://huggingface.co/THUDM/WebGLM-2B)||MathGLM-2B|在训练数据充足的情况下，20亿参数的MathGLM模型能够准确地执行多位算术运算，准确率几乎可以达到100%，其结果显著超越最强大语言模型GPT-4在相同测试数据上18.84%的准确率。|[MathGLM](https://github.com/THUDM/MathGLM)|[THU-Cloud](https://cloud.tsinghua.edu.cn/d/cf429216289948d889a6/)||MathGLM-500M|||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/c80046ec7e234be4831b/)||MathGLM-100M|||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/a6ca369a212c4df08359/)||MathGLM-10M|||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/16a914d6db2a4b8f80f5/)||MathGLM-Large|采用GLM的不同变体作为骨干来训练MathGLM，包括具有335M参数的GLM-large和GLM-10B。此外，还使用ChatGLM-6B和ChatGLM2-6B作为基座模型来训练MathGLM。这些骨干模型赋予MathGLM基本的语言理解能力，使其能够有效理解数学应用题中包含的语言信息。||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/3d138deaf93441b196fb/)|

模型（Models）

OpenAI API由具有不同功能和价位的多种模型提供支持。您还可以通过[微调（fine-tuning）](https://ywh1bkansf.feishu.cn/wiki/ATYCwS5RRibGXNkvoC4ckddLnLf)，针对您的特定用例对我们的原始基本模型进行有限的定制。|模型|描述||-|-||[GPT-4](https://platform.openai.com/docs/models/gpt-4)Beta|一组改进GPT-3.5的模型，可以理解和生成自然语言或代码||[GPT-3.5](https://platform.openai.com/docs/models/gpt-3-5)|一组改进GPT-3的模型，可以理解并生成自然语言或代码||[DALL·E](https://platform.openai.com/docs/models/dall-e)Beta|可以在给定自然语言提示的情况下生成和编辑图像的模型||[Whisper](https://platform.openai.com/docs/models/whisper)Beta|可以将音频转换为文本的模型||[Embeddings](https://platform.openai.com/docs/models/embeddings)|一组可以将文本转换为数字形式的模型||[Codex](https://platform.openai.com/docs/models/codex)Limited Beta|一组可以理解和生成代码的模型，包括将自然语言转换为代码||[Moderation](https://platform.openai.com/docs/models/moderation)|可以检测文本是否敏感或不安全的微调模型||[GPT-3](https://platform.openai.com/docs/models/gpt-3)|一组可以理解和生成自然语言的模型|

Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型

5种尺寸的预训练和指令调整模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B；（Qwen2-57B-A14B这个模型可以重点看看除英语和中文外，还接受过另外27种语言的数据训练；在大量基准评估中表现出最先进的性能；在大量基准评估中获得SOTA性能。代码和数学性能显著提高，全面超越llama3增大了上下文长度支持，最高达到128K tokens（Qwen2-72B-Instruct）。HF最新榜第一72B和7B可处理128k上下文57B-A14B可处理64k上下文0.5B和1.5B可处理32k上下文相比2月推出的通义千问Qwen1.5，Qwen2实现了整体性能的代际飞跃。在权威模型测评榜单OpenCompass中，此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型。刚刚开源的Qwen2-72B，整体性能相比Qwen1.5-110B又取得了大幅提升。（图说：在上海人工智能实验室推出的OpenCompass大模型测评榜单上，此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型）通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中，Qwen2-72B获十几项世界冠军，超过美国的Llama3。（图说：Qwen2-72B在十多个权威测评中获得冠军，超过美国的Llama3-70B模型）