Chat with Wiki - 什么是大模型语言呢？

Answer

大模型语言通俗来讲，是输入大量语料让计算机获得类似人类“思考”能力，从而能够理解自然语言，并进行文本生成、推理问答、对话、文档摘要等工作。

大模型的训练和使用过程可以用“上学参加工作”来类比：

找学校：训练大模型需要大量计算，GPU 更合适，只有购买得起大量 GPU 的才有资本训练。
确定教材：大模型需要大量数据，几千亿序列（Token）的输入基本是标配。
找老师：用合适算法让大模型更好理解 Token 之间的关系。
就业指导：为让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称为推导（infer）。

大模型的架构包括 encoder-only、encoder-decoder 和 decoder-only 三种。encoder-only 通常适用于自然语言理解任务，如分类和情感分析，代表模型是 BERT；encoder-decoder 同时结合 Transformer 架构的 encoder 和 decoder 来理解和生成内容，代表是 google 的 T5；decoder-only 更擅长自然语言生成任务，众多 AI 助手基本采用这种结构，包括 ChatGPT。这些架构都由谷歌 2017 年发布的“attention is all you need”中提出的 transformer 衍生而来。

大模型的“大”体现在：

预训练数据非常大，来自互联网上的论文、代码、公开网页等，最先进的大模型一般用 TB 级别的数据进行预训练。
参数非常多，Open 在 2020 年发布的 GPT-3 就已达到 170B 的参数。

简单来说，Prompt 是一套与大模型交互的语言模板，通过它可以输出对大模型响应的指令，指定大模型应做什么、完成什么任务、如何处理具体任务，并最终输出期望的结果。在大模型时代，Prompt 可能成为人机交互的主要方式。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）

从 0 到 1 了解大模型安全，看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数

从原理到应用一次讲清楚 Prompt

简单来说，其实是一套你和大模型交互的一种语言模板。通过这个模版，你可以输出你对于大模型响应的指令，用于大模型应该具体做什么指定，完成什么任务，如何处理具体的任务，并最终输出你期望的结果。虽然大模型具有基础的文字能力，能够理解你对于模型说的大部分话，但是为了达成大模型更好的回答效果，需要通过Prompt，来提升模型返回的准确性。如果说，过去的时代，人机交互的主要方式是通过代码，那么我认为在大模型时代，交互语言的主要方式其实是Prompt。