大模型的学习之路包括以下几个主要方面:
1. 大模型的定义:通俗来讲,大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能进行文本生成、推理问答、对话、文档摘要等工作。
2. 大模型的训练和使用类比:
找学校:训练大模型需要大量计算,GPU更合适,只有购买得起大量GPU的才有资本训练。
确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。
找老师:用合适算法让大模型更好理解Token之间的关系。
就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。
搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。
Token:Token被视为模型处理和生成的文本单位,可代表单个字符、单词等,在将输入进行分词时会数字化形成词汇表。
3. 大模型的底层原理:计算机科学家/工程师以大脑神经元细胞结构为灵感,利用概览模型在计算机上实现对人脑结构的模仿,但大模型内部是混沌系统,存在不确定的“不安感”,同时也学习了人类大脑的优点和特质,这些特质在实际应用中表现出“缺陷”和“不足”。
4. 大模型的构建过程:
收集海量数据:如让孩子阅读大量书籍等,对于AI模型就是收集互联网上的各种文本数据。
预处理数据:像为孩子整理资料,AI研究人员也需清理和组织收集的数据,如删除垃圾信息等。
设计模型架构:为孩子设计学习计划,研究人员需设计AI模型的“大脑”结构,如使用Transformer架构。
训练模型:如孩子开始学习,AI模型开始“阅读”数据,通过反复预测句子中的下一个词逐渐学会理解和生成人类语言。
2025-03-23