大模型的基本原理如下:
总结一下,以上这段讨论,你要重点记住这句话:模仿人类大脑结构的AI,也自然而然的表现出人的特征,很多我们应对大模型回答不及预期的解决之道,也和人与人交流沟通的技巧如出一辙,息息相关。关于这一点,我们会在后续各种真实案例的分析拆解中再来讨论。GPT的全称是生成式预训练转换器模型(Generative Pre-trained Transformer),他的名字里就蕴含了大量重要的信息,接下来我们来聊聊GPT这三个字母的分别含义:图14 Generative Pre-trained Transformer生成式(Generative):所谓生成式,说的是大模型是根据已有的输入为基础,不断计算生成下一个字词(token),从而逐字完成回答的过程。这一过程,像极了一个单字接龙的游戏,图15中给出了一个简单的例子做为说明:1.一开始我们给了大模型一些提示词Prompt,为了简化,在图中这个提示词只有一个单词:How;2.接下来,大模型会结合自己“大脑中存储的知识”进行计算推理,算出how后面接are这个单词的概率最大,于是输出are接在how后面;3.在已知how are的情况下,大模型再次推理计算,算出how are后面接you这个单词概率最大,于是输出you接在how are后面;4.不断重复上面步骤,每次大模型会多输出一个词(token),新的输出会和过去的输入一并成为新的输入,用来计算下一个词;5.直到计算出下一个词是[end of text]的概率最大,于是结束输出,回答结束([end of text]是一个特殊的token,用来终止对话输出)
通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习,那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程:1.找学校::训练LLM需要大量的计算,因此GPU更合适,因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导5.搬砖::就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|
一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。