Chat with Wiki - 大模型的基本原理

Answer

大模型的基本原理如下：

模仿人类大脑结构，表现出人的特征，应对大模型回答不及预期的解决之道与人与人交流沟通的技巧相似。
GPT 全称是生成式预训练转换器模型（Generative Pre-trained Transformer）：
- 生成式（Generative）：大模型根据已有的输入为基础，不断计算生成下一个字词（token），逐字完成回答。例如，从提示词“How”开始，依次推理计算出“are”“you”等，直到计算出下一个词是[end of text]的概率最大时结束输出。
通俗来讲，大模型通过输入大量语料来让计算机获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。其训练和使用过程可类比为上学参加工作：
- 找学校：训练大模型需要大量计算，GPU 更合适，只有购买得起大量 GPU 的才有资本训练。
- 确定教材：大模型需要大量数据，几千亿序列（Token）的输入基本是标配。
- 找老师：用合适算法讲述“书本”内容，让大模型更好理解 Token 之间的关系。
- 就业指导：为让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
- 搬砖：就业指导完成后进行推导（infer），如进行翻译、问答等。
在 LLM 中，Token 被视为模型处理和生成的文本单位，可代表单个字符、单词、子单词等，在将输入进行分词时会对其进行数字化，形成词汇表。
相关技术名词及关系：
- AI 即人工智能。
- 机器学习包括监督学习、无监督学习、强化学习，监督学习有标签，无监督学习无标签自主发现规律，强化学习从反馈里学习。
- 深度学习参照人脑有神经网络和神经元，神经网络可用于多种学习方式。
- 生成式 AI 可生成多种内容形式，LLM 是大语言模型，生成只是大语言模型的一个处理任务。
技术里程碑：2017 年 6 月，谷歌团队发表论文《Attention is All You Need》，首次提出 Transformer 模型，基于自注意力机制处理序列数据，不依赖 RNN 或 CNN。

Content generated by AI large model, please carefully verify (powered by aily)

References

总结一下，以上这段讨论，你要重点记住这句话：模仿人类大脑结构的AI，也自然而然的表现出人的特征，很多我们应对大模型回答不及预期的解决之道，也和人与人交流沟通的技巧如出一辙，息息相关。关于这一点，我们会在后续各种真实案例的分析拆解中再来讨论。GPT的全称是生成式预训练转换器模型（Generative Pre-trained Transformer），他的名字里就蕴含了大量重要的信息，接下来我们来聊聊GPT这三个字母的分别含义：图14 Generative Pre-trained Transformer生成式（Generative）：所谓生成式，说的是大模型是根据已有的输入为基础，不断计算生成下一个字词（token），从而逐字完成回答的过程。这一过程，像极了一个单字接龙的游戏，图15中给出了一个简单的例子做为说明：1.一开始我们给了大模型一些提示词Prompt，为了简化，在图中这个提示词只有一个单词：How；2.接下来，大模型会结合自己“大脑中存储的知识”进行计算推理，算出how后面接are这个单词的概率最大，于是输出are接在how后面；3.在已知how are的情况下，大模型再次推理计算，算出how are后面接you这个单词概率最大，于是输出you接在how are后面；4.不断重复上面步骤，每次大模型会多输出一个词（token），新的输出会和过去的输入一并成为新的输入，用来计算下一个词；5.直到计算出下一个词是[end of text]的概率最大，于是结束输出，回答结束（[end of text]是一个特殊的token，用来终止对话输出）

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

【AI学习笔记】小白如何理解技术原理与建立框架（通俗易懂内容推荐）

一、视频一主要回答了什么是AI大模型，原理是什么。1、概念：生成式AI生成的内容，叫做AIGC2、概念与关系：相关技术名词1）AI——人工智能2）机器学习——电脑找规律学习，包括监督学习、无监督学习、强化学习。3）监督学习——有标签的训练数据，算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4）无监督学习——学习的数据没有标签，算法自主发现规律。经典任务包括聚类，比如拿一堆新闻文章，让模型根据主题或内容特征分成具有相似特征的组。5）强化学习——从反馈里学习，最大化奖励或最小化损失；类似训小狗。6）深度学习——一种方法，参照人脑有神经网络和神经元（因为有很多层所以叫深度）。神经网络可以用于监督学习、无监督学习、强化学习。7）生成式AI——可以生成文本、图片、音频、视频等内容形式8）LLM——大语言模型。对于生成式AI，其中生成图像的扩散模型就不是大语言模型；对于大语言模型，生成只是其中一个处理任务，比如谷歌的BERT模型，可用于语义理解（不擅长文本生成），如上下文理解、情感分析、文本分类；3、技术里程碑——2017年6月，谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型，它完全基于自注意力机制（Self-Attention）来处理序列数据，而不需要依赖于循环神经网络（RNN）或卷积神经网络（CNN）。