大模型的训练过程可以类比为“上学参加工作”:
1. 找学校:训练大模型需要大量的计算资源,如 GPU,只有具备强大计算能力的机构才有条件训练自己的大模型。
2. 确定教材:大模型需要大量的数据,通常几千亿序列(Token)的输入是基本要求。
3. 找老师:即选择合适的算法来讲解“书本”中的内容,让大模型更好地理解 Token 之间的关系。
4. 就业指导:学完知识后,为了让大模型更好地胜任某一行业,需要进行微调(fine tuning)指导。
5. 搬砖:就业指导完成后,正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。
在 LLM 中,Token 被视为模型处理和生成的文本单位,可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary)。
此外,训练大模型的基础步骤如下:
1. 创建数据集:进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset),在数据集一栏中点击右上角创建数据集,输入数据集名称。可以上传包含图片和标签的 zip 文件,也可单独上传照片,但建议提前将图片和标签打包成 zip 上传,且图片名与对应的达标文件应匹配。上传后等待一段时间,确认创建数据集,返回上一个页面等待上传成功,可点击详情检查,能预览到数据集的图片以及对应的标签。
2. Lora 训练:点击 Flux,基础模型会默认是 FLUX 1.0D 版本。选择数据集,触发词可有可无,取决于数据集是否有触发词,模型效果预览提示词可随机抽取数据集中的一个标签填入。训练参数可调节重复次数与训练轮数,若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。可按需求选择是否加速,点击开始训练,会显示所需要消耗的算力,然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有生图,点击可自动跳转到使用此 lora 生图的界面,点击下方的下载按钮可自动下载到本地。
从原理层面,用数学来理解 Prompt:传统的机器学习是 p,但这个模型未经人工标注,我们给出的 Prompt 就是 x,让大模型基于此知道概率最大的 y,避免人工标注,但依赖 x 给入的信息更大概率找到合适的 y。例如给一张照片,输入“这是一个动物,这是什么”,大模型根据输入提取特征和提示,最终返回结果。
2025-03-22