大模型通俗来讲,是输入大量语料,让计算机获得类似人类的“思考”能力,从而能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。
在 LLM 中,Token 被视为模型处理和生成的文本单位,可以代表单个字符、单词、子单词甚至更大的语言单位,具体取决于所使用的分词方法。Token 是原始文本数据与 LLM 可用的数字表示之间的桥梁,输入分词时会数字化形成词汇表。为让计算机理解 Token 之间的联系,需将 Token 表示成稠密矩阵向量,这个过程称为 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等,以 Transform 为代表的大模型采用自注意力机制来学习不同 token 之间的依赖关系,生成高质量 embedding。
所谓的大模型,就是拥有庞大参数数量的模型。它们通过处理和理解海量数据,能够胜任一系列复杂任务。之所以称为“大”模型,是因为其规模大,通常包含数十亿到数千亿的参数,这些庞大的参数集合赋予了强大的学习和记忆能力。大模型强大的原因一方面在于庞大的参数数量,这些参数在学习过程中不断调整,帮助模型更深入地理解和生成数据;另一方面,大模型的训练离不开大量数据,无论是文本、图像还是音频数据,都是学习的基础,通过对这些数据的深入学习,模型能够掌握丰富的知识和技能。
2024-08-08