大模型通俗来讲,是输入大量语料,让计算机获得类似人类的“思考”能力,从而能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。
可以用“上学参加工作”这件事来类比大模型的训练和使用过程:
1. 找学校:训练大模型需要大量计算,GPU更合适,只有购买得起大量GPU的才有资本训练。
2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。
3. 找老师:即采用合适的算法讲述“书本”中的内容,让大模型更好理解Token之间的关系。
4. 就业指导:学完知识后,为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。
5. 搬砖:就业指导完成后,正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。
在大模型中,Token被视为模型处理和生成的文本单位,会被数字化形成词汇表,便于计算机处理。为让计算机理解Token之间的联系,还需把Token表示成稠密矩阵向量,这个过程称为embedding,常见算法有基于统计的Word2Vec、GloVe,基于深度网络的CNN、RNN/LSTM,基于神经网络的BERT、Doc2Vec等。以Transform为代表的大模型采用自注意力(Selfattention)机制来学习不同token之间的依赖关系,生成高质量embedding。
大模型的“大”指用于表达token之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如GPT3拥有1750亿参数,而词汇表token数只有5万左右。
所谓的大模型,简而言之,就是拥有庞大参数数量的模型,通过处理和理解海量数据,能够胜任一系列复杂任务。大模型强大的原因在于庞大的参数数量和大量的数据训练。这些参数是模型在学习过程中不断调整的核心,帮助模型更深入地理解和生成数据。同时,大量的数据,无论是文本、图像还是音频数据,都是大模型学习的基础,使其能够掌握丰富的知识和技能。
2025-03-13