ChatGPT 的模型是需要训练的。训练方式是通过材料学习,不断形成模型。训练的目的不是记忆,而是学习“提问和回答的通用规律”,以实现举一反三。
具体来说,ChatGPT 的实质功能可以用“词语接龙”来概括。给它任意长的上文,它会用自己的模型去生成下一个词,然后把生成的下一个词和之前的上文组合成新的上文,再生成下一个词,不断重复就可以生成任意长的下文,这个过程也叫做自回归生成。
在训练方面,使用现代 GPU 硬件,可以并行计算数千个示例的结果。但在更新神经网络中的权重时,目前的方法基本要求一次一批地进行操作。为了训练一个“类人类语言”的模型,ChatGPT 成功地从数百万亿字的文本中进行了训练,一些文本会被重复使用多次,而其他文本只会使用一次。最终,ChatGPT 仅使用了约 2000 亿个权重就实现了它的工作。
需要注意的是,个人无法训练自己的 ChatGPT 模型。
它为什么叫做ChatGPT呢?先说GPT:Generative Pre-Training Transformer;Generative生成式,Pre-Training预训练。Transformer转换器示意图ChatGPT实质功能:本质是「单字接龙」,长文由单字接龙的回归所生成GPT作为大脑,也就是模型是需要训练的。训练方式是通过材料学习,不断的形成模型。eg.未学习前,胡乱生成,学习后,概率抽样生成,可以对比小朋友学习前后训练的目的不是记忆,是学习,“提问和回答的通用规律”学习后的模型,可以实现举一反三Chat Gpt并不是搜索引擎的升级版,材料学习作业时调整模型,生成模型;可以给出没有记忆中的内容,这也是出现“幻觉”的原因,对现实不存在的东西,出现合乎规律的捏造,通过提前训练才能生成想要的问答,这样的训练是为了让它学会「能举一反三的规律」缺点是可能混淆记忆,无法直接查看和更新所学,且高度依赖学习材料,也是缺乏及时性,准确性的原因
具体来说就是给他任意⻓的上文,他会用自己的模型去生成下一个词那他是怎么回答那些⻓内容的呢?答案是把它自己生成的下一个词,和之前的上文组合成新的上文,再让它生成下一个词,不断重复就可以生成任意⻓的下文。该过程也叫做自回归生成。上文:我爱下文:香菜?中国?原神?每一次的回答就像掷骰子或抽卡,训练模型可以让答案更接近用户想要的答案(当然提示词的撰写也非常重要,后面的直播会说到)[heading2]?大型模型的训练方式[heading3]Chat GPT ??♀️搜索引擎[content]难道说要把所有的提问回答组合都给chat GPT t来做单字接⻰吗?其实不需要训练的主要目的不是记忆,而是学习以单字接⻰的方式来训练模型。不仅仅是为了让模型记住某个提问和回答,数据库已经将所有信息都记忆好了,直接搜索就可以得到回答非要训练单字接⻰,为的就是让模型学习提问和回答的通用规律。以便在遇到没记忆过的提问时,也能利用所学的规律生成用户想要的回答,这种举一反三的目的也叫做泛化。学习材料的作用只是调整模型,以得到通用模型,为的是能处理未被数据库记忆的情况因此chat GPT也被称为生成模型,生成模型与搜索引擎非常不同,搜索引擎无法给出没被数据库记忆的信息,但生成语言模型可以创造不存在的文本。
[title]ChatGPT是在做什么,为什么它有效?[heading2]ChatGPT的内部[heading3]ChatGPT的训练使用现代GPU硬件,可以并行计算数千个示例的结果。但是,当涉及实际更新神经网络中的权重时,目前的方法基本上要求一次一批地执行此操作。(是的,这可能是实际的大脑将计算和内存元素相结合的优势。)即使在我们之前讨论过的学习数值函数的看似简单的情况下,我们发现通常需要使用数百万个示例才能成功训练网络,至少是从头开始。那么,为了训练一个“类人类语言”的模型,需要多少示例呢?理论上似乎没有任何根本的方式可以知道。但是在实践中,ChatGPT成功地从数百万亿字的文本中进行了训练。一些文本会被重复使用多次,而其他文本只会使用一次。但是,它以某种方式从看到的文本中“得到了它所需的”。但是,考虑到这么多的文本进行训练,需要多大的网络才能“很好地学习它”呢?同样,我们还没有根本的理论。最终——正如我们将在下面进一步讨论的——人类语言及其典型使用可能存在一定的“算法”。但是,下一个问题是,神经网络在实现基于该算法内容的模型时有多么高效;我们还不知道,尽管ChatGPT的成功表明它相当有效。最后,我们可以注意到,ChatGPT仅使用了约2000亿个权重就实现了它的工作。这个数字与它所接收的训练数据的总单词数(或token数)相当。在某种程度上,这也许令人惊讶(尽管ChatGPT的较小模型中也观察到了这一现象),即似乎“有效工作的网络大小”与“训练数据的大小”非常接近。毕竟,当然并不是“ChatGPT内部”直接存储了来自网络和书籍等所有文本的某种形式。因为ChatGPT内部实际上包含一些数字,它们是所有这些文本的聚合结构的某种分布式编码,精度略低于10位数字。