Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

预训练

Answer

以下是关于预训练的相关内容:

Atom 系列模型的预训练: Atom 系列模型包含 Atom-7B 和 Atom-13B,基于 Llama2 做了中文能力的持续优化。Atom 大模型在 Llama2 的基础上,采用大规模的中文数据进行持续预训练,数据来源广泛,包括百科、书籍、博客、新闻、公告、小说、金融数据、法律数据、医疗数据、代码数据、专业论文数据、中文自然语言处理竞赛数据集等。同时对庞大的数据进行了过滤、打分、去重,筛选出超过 1T token 的高质量中文数据,持续不断加入训练迭代中。为了提高中文文本处理的效率,针对 Llama2 模型的词表进行了深度优化,扩展词库至 65,000 个单词,提高了中文编码/解码速度约 350%,还扩大了中文字符集的覆盖范围,包括所有 emoji 符号。Atom 大模型默认支持 4K 上下文,利用位置插值 PI 和 Neural Tangent Kernel(NTK)方法,经过微调可以将上下文长度扩增到 32K。

GPT 助手的预训练: 预训练阶段是 GPT 训练中计算工作基本发生的地方,占用了训练计算时间和浮点运算的 99%。在这个阶段,需要收集大量的数据,如 Common Crawl、C4、GitHub、维基百科、图书、ArXiv、StackExchange 等,并按照一定比例采样形成训练集。在实际训练前,需要进行预处理步骤 Tokenization(分词/标记化),将原始文本翻译成整数序列。

OpenAI o1 的预训练: GPT 4 等 LLM 模型训练一般由“预训练”和“后训练”两个阶段组成。“预训练”通过 Next Token Prediction 从海量数据吸收语言、世界知识、逻辑推理、代码等基础能力,模型规模越大、训练数据量越多,则模型能力越强。

Content generated by AI large model, please carefully verify (powered by aily)

References

模型预训练

Atom系列模型包含Atom-7B和Atom-13B,基于Llama2做了中文能力的持续优化。Atom-7B和Atom-7B-Chat目前已完全开源,支持商用,可在Hugging Face仓库获取模型:https://huggingface.co/FlagAlpha[heading6]大规模的中文数据预训练[content]原子大模型Atom在Llama2的基础上,采用大规模的中文数据进行持续预训练,包含百科、书籍、博客、新闻、公告、小说、金融数据、法律数据、医疗数据、代码数据、专业论文数据、中文自然语言处理竞赛数据集等,详见?数据来源。同时对庞大的数据进行了过滤、打分、去重,筛选出超过1T token的高质量中文数据,持续不断加入训练迭代中。[heading6]更高效的中文词表[content]为了提高中文文本处理的效率,我们针对Llama2模型的词表进行了深度优化。首先,我们基于数百G的中文文本,在该模型词表的基础上扩展词库至65,000个单词。经过测试,我们的改进使得中文编码/解码速度提高了约350%。此外,我们还扩大了中文字符集的覆盖范围,包括所有emoji符号?。这使得生成带有表情符号的文章更加高效。[heading6]自适应上下文扩展[content]Atom大模型默认支持4K上下文,利用位置插值PI和Neural Tangent Kernel(NTK)方法,经过微调可以将上下文长度扩增到32K。

GPT 的现状(State of GPT)

所以我们将从预训练阶段开始。现在,这个阶段在图表中比较特殊,而且这个图表不是按比例绘制的,因为这个阶段是所有计算工作基本上都发生的地方。它占用了训练计算时间和浮点运算的99%。所以,这就是我们处理互联网规模数据集的地方,超级计算机中有成千上万的GPU,并且可能需要几个月的训练时间。其他三个阶段则是微调阶段,这些阶段更多的是使用一些GPU进行几个小时或几天的训练。那么,我们来看看如何通过预训练阶段得到一个基础模型。首先,我们要收集大量的数据。这里有一个我们称之为数据混合体的例子,它来自Meta公司发布的一篇论文,论文中发布了LLaMA的基础模型。现在,你可以大致看到这些集合中涉及的数据集种类。我们有Common Crawl,它只是一个网页爬虫,还有C4,也是一个Common Crawl,然后还有一些高质量的数据集,例如:GitHub、维基百科、图书、ArXiv、StackExchange等。这些都混在一起,然后按照一定的比例进行采样,这就形成了GPT神经网络的训练集。在我们实际对这些数据进行训练之前,我们需要进行一个预处理步骤,那就是Tokenization(分词/标记化)。这基本上就是将我们从互联网上抓取的原始文本翻译成整数序列,因为这是GPT操作的原生表示方式。现在,这是一种文本片段、token以及整数之间的无损转化,这个阶段有很多算法。通常,例如,你可以使用类似于字节对编码的东西,它迭代地合并小文本块,并将它们组成token。所以,我在这里展示一些这些token的示例块,然后这就是将实际输入transformer的原始整数序列。现在,我在这里展示了两个类似的例子,这些例子是关于控制这个阶段的超参数的。

张俊林:Reverse-o1: OpenAI o1原理逆向工程图解

GPT 4等LLM模型训练一般由“预训练”和“后训练”两个阶段组成(参考上图)。“预训练”通过Next Token Prediction来从海量数据吸收语言、世界知识、逻辑推理、代码等基础能力,模型规模越大、训练数据量越多,则模型能力越强,我们一般说的Scaling Law指的是这一阶段的模型扩展特性,也是LLM训练最消耗算力资源的地方。“后训练”则分为SFT、RM和PPO三个过程,统称为人工反馈的强化学习(RLHF),这一阶段的主要目的有两个,一个是让LLM能遵循指令来做各种任务,另一个是内容安全,不让LLM输出不礼貌的内容。而训练好的[模型推理](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86&zhida_source=entity)(Inference)过程则是对于用户的问题直接逐个生成Token来形成答案。

Others are asking
这个网站的作用是什么?是通过这个网站更好的使用训练AI吗?
WaytoAGI 网站具有以下功能: 1. 和 AI 知识库对话:您可以在此询问任何关于 AI 的问题。 2. AI 网站:集合了精选的 AI 网站,可按需求找到适合您的工具。 3. AI 提示词:集合了精选的提示词,能复制到 AI 对话网站使用。 4. 知识库精选:将每天知识库的精华内容呈现给大家。 总之,WaytoAGI 网站和 WaytoAGI 知识库相互独立又有关联,希望成为您学习 AI 路上的好助手。
2025-04-13
想自学ai训练师 推荐哪个视频去学习
以下是为您推荐的自学 AI 训练师的视频: 1. 3 月 26 日|自由讨论|离谱视频切磋大会 猫先生介绍自己的背景和擅长领域 AI 学习与实践的重要性 AI 交流会:分享项目经验和技能 讨论比赛规则和资源分配 AI 工具学习与合作 广州 AI 训练师叶轻衣分享使用 AI 工具的经验和想法 组队提升工作效率 AI 技术在 3D 动画制作中的应用与优势 链接:https://waytoagi.feishu.cn/minutes/obcnc915891t51l64uyonvp2?t=0 2. AI 大神 Karpathy 再发 LLM 入门介绍视频 神经网络训练的目标:训练神经网络的目标是让模型学习 token 在序列中彼此跟随的统计关系,即预测给定上下文(token 序列)后,下一个最有可能出现的 token。 Token 窗口:训练时,模型从数据集中随机抽取固定长度的 token 窗口(例如 8000 个 token)作为输入。 神经网络的输入与输出:输入为 Token 序列(上下文),输出为预测下一个 token 的概率分布,词汇表中每个 token 都有一个概率值。 随机初始化与迭代更新:神经网络初始参数是随机的,预测也是随机的。训练过程通过迭代更新参数,调整预测结果,使其与训练数据中的统计模式相匹配。 损失函数与优化:训练过程使用损失函数来衡量模型预测与真实 token 的差距。优化算法(如梯度下降)用于调整参数,最小化损失函数,提高预测准确率。 神经网络内部结构:Transformer 包含注意力机制和多层感知器等组件,能够有效地处理序列数据并捕捉 token 之间的复杂关系。 链接:无
2025-04-12
想自学ai训练师
如果您想自学成为 AI 训练师,以下是一些相关的知识和建议: 一、AI 训练的基本概念 训练是指通过大数据训练出一个复杂的神经网络模型。这需要使用大量标记过的数据来训练相应的系统,使其能够适应特定的功能。训练过程需要较高的计算性能,能够处理海量的数据,并具有一定的通用性,以便完成各种各样的学习任务。 二、相关领域的知识 1. 机器学习:机器学习是人工智能的一个分支,是实现人工智能的途径之一,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。 2. 自然语言处理:自然语言(NLP)认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言,是人工智能和语言学领域的分支学科。 三、学习资源和实践 您可以参考以下的一些资源和实践方式: 1. 参加相关的线上交流会,例如 3 月 26 日的自由讨论活动,其中会分享项目经验、技能以及使用 AI 工具的经验和想法。 2. 了解一些健身的 AI 产品,如 Keep(https://keep.com/)、Fiture(https://www.fiture.com/)、Fitness AI(https://www.fitnessai.com/)、Planfit(https://planfit.ai/)等,虽然这些主要是健身领域的应用,但也能帮助您了解 AI 在不同场景中的应用和创新。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-12
怎么用把AI训练成自己的东西?
要将 AI 训练成自己的东西,可以参考以下方法: 1. 像马斯克提到的,对于公开的推文数据可以合理使用,但不能使用私人的东西进行训练。同时,要注重数据的质量和使用方式,高质量的数据对于训练效果至关重要。 2. 张梦飞的方法中,例如部署 LLama Factory 时,需要添加选中“identity”数据集,将训练轮数改成 15 等,并通过一系列操作进行训练和测试。但需要注意的是,训练大模型是复杂的过程,数据集和训练参数都会影响最终效果,需要反复调试和深入学习实践。 3. 在写作方面,我们可以根据自身需求选择人类驱动为主,利用 AI 进行修改完善,或者先由 AI 生成内容再进行修改以符合自己的风格。
2025-04-11
如何训练一个AI 阅读教练
训练一个 AI 可以类比为培养一位职场新人,主要包括以下三个阶段: 1. 规划阶段:明确目标 确定 AI 的具体任务,比如结构化外文精读等。 将任务拆解为可管理的子任务。 设计每个子任务的执行方法。 2. 实施阶段:实战指导 搭建工作流程。 为每个子任务设置清晰的操作指南。 像指导新员工一样,手把手引导 AI 完成任务,并及时验证其输出质量。 3. 优化阶段:持续改进 通过反复测试和调整,不断优化 AI 的性能。 调整工作流程和 Prompt 配置,直到 AI 能稳定输出高质量的结果。 当前大模型在处理多步骤复杂任务时存在明显局限,比如在“数据分析图表、剧情游戏”或“本文结构化外文精读”等任务中,仅依靠单一 Prompt 指令难以稳定执行,现阶段的 AI 更像缺乏独立解决问题能力的职场新人,需要遵循指引和给定的流程才能完成特定任务。如果您已经完全了解上述内容,不妨自己设定一个任务目标,动手构建一个专属于自己的 AI 。
2025-04-11
模型训练的基本名词和方法
以下是关于模型训练的基本名词和方法的介绍: 基本名词: 1. 过拟合&欠拟合:过拟合和欠拟合都是不好的现象,需要加以控制以让模型达到理想效果。解决方法包括调整训练集、正则化和训练参数等,过拟合可减少训练集素材量,欠拟合则增加训练集素材量。 2. 泛化性:泛化性不好的模型难以适应其他风格和多样的创作。可通过跑 lora 模型生图测试判断泛化性,解决办法与过拟合和欠拟合类似,从训练集、正则化、训练参数等方面调整。 3. 正则化:是解决过拟合和欠拟合情况、提高泛化性的手段,给模型加规则和约束,限制优化参数,有效防止过拟合,提高模型适应不同情况的表现和泛化性。 方法: 1. 全面充分采集训练素材:例如在角色训练素材中,应包含各种角度、表情、光线等情况的素材,确保模型具有较好泛化性。 2. 图像预处理:对训练素材进行分辨率调整、裁切操作,并对训练集进行打标签处理。 3. 参数调优:尽量将训练时长控制在半小时左右,过长易导致过拟合,通过调整参数控制时长。 4. 观察学习曲线:通过观察学习曲线来调整训练素材和参数。 5. 过拟合&欠拟合处理:测试训练好的模型,观察过拟合和欠拟合问题,进一步通过调整训练素材和正则化等手段优化。 此外,在模型训练中还需注意: 1. 数据集获取渠道:可通过网上收集、购买、使用无版权问题的如古画等,原则是根据生成图的需求找对应数据集,要清晰、主体元素干净、风格统一。 2. 数据集处理:包括基础处理如裁剪保证清晰和分辨率,更重要的是写标注。 3. 设置模型触发词:可自定义,完整形式可以是一句话,建议以王 flags 模型为主。 4. 统一标注风格与应用场景:例如未来高科技 3D 天然风格,用于互联网首页图像等,并概括主题内容、描述物体特征等。 5. 利用 GPT 辅助描述并人工审核:让 GPT 按要求描述,人工审核修改。 6. 模型训练的准备与流程:完成数据集描述后进入训练流程,选择模型训练分类和数据集,创建并上传数据集压缩包,注意数据名与图片命名一致。选择训练模式和参数,新手选用普通基础模式,训练集质量重要,训练参数中总步数与训练集图片数量相关,触发词设定要避免概念混乱。
2025-04-09