以下是关于 DeepSeek 私有化训练的相关信息:
模型测试、问题探讨与新模型部署过程:
探讨了模型存在幻觉、答案有概率性等问题,并对比了加提示词前后的情况。
准备从 32B 蒸馏新模型,提及该模型的资源需求及阿里云拍卖机制。
介绍了启动 DSW 获取廉价 CPU 资源,以及部署模型时因库存不足不断加价的过程。
派平台大模型训练与微调实操讲解:
许键分享了抢硬件资源的方法,演示了通过提问蒸馏标注数据。
讲解了在派平台训练模型的流程,包括参数设置、数据集上传等,并展示了训练效果和日志查看。
说明了训练好的模型部署方法,强调训出满意模型需要大量基础知识学习。
模型蒸馏微调演示、平台介绍与问题解答:
许键展示了模型微调后的效果,如幻觉下降等。
介绍了阿里云解决方案,对比了百炼和派平台的差异。
进行了 Q&A,回答了无监督学习微调、训练数据资源、多模态训练标注、Python 代码报错等问题,提及派平台有公用数据集,还举例说明了多模态标注方式。
总结:
本地部署介绍:讲解了如果拥有云服务器如何进行本地部署,以及满血版本地部署的实际情况。
免费额度说明:在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。
平台服务差异:介绍了 DLC、DSW 和 EAS 等模型部署平台服务的差别。
模型蒸馏微调:会带着大家复现模型的蒸馏和微调,并讲解相关知识。
Deepseek R1 模型的制作及相关模型比较:
R1 模型的强化学习:通过强化学习,在训练过程中给予模型反馈,对正确路线增强权重,使做对的概率变高,导致思考逻辑变长。
R1 模型的蒸馏与微调:用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。
R1 与其他模型的差别:R1 是原生通过强化学习训练出的模型,蒸馏模型是基于数据微调出来的,基础模型能力强,蒸馏微调模型能力也会强。
模型的相互帮助:Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面,使两个模型都更强。
智能章节:
许键介绍今日课程重点是云服务器上如何使用 Deepseek R1 及本地部署相关内容,提及派平台免费额度及适用模型。还介绍了自己和社区情况。接着讲解 Deepseek R1 制作过程,包括强化学习概念及示例,阐述其从 Deepseek r e Zero 到 M2 等模型的演变及原理。
主要介绍了 Deepseek R1 模型的构建过程,包括多轮强化学习和微调,还提及蒸馏模型的情况。探讨了不同模型部署所需的显存、内存及成本,对比了各模型在专业领域的能力表现。
介绍了以云基础设施和 GPU 算力资源为底层的派平台。该平台搭建 AI 框架并做优化,提供一键式快捷部署工具等。与百炼不同,它开放更多自由度,租户数据隔离。很多大模型在此训练,支持多机分布式部署等,既面向企业,也适合个人创业者,不同应用定价有差异。
2025-03-05