DeepSeek 微调相关信息如下:
DeepSeek 有更聪明的 R1zero 实验版本,它采用完全从零开始的强化学习,无需人类监督训练,学会了用更多思考步骤解决推理任务和反思推理步骤,但存在输出内容可读性差、语言混合、风险不可控等问题,所以常见的是经过冷启动与微调的 R1 版本,以确保生成内容稳定、安全、道德、无害。
在模型蒸馏微调方面,会带着大家复现模型的蒸馏和微调,并讲解相关知识。用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。R1 是原生通过强化学习训练出的模型,蒸馏模型是基于数据微调出来的,基础模型能力强,蒸馏微调模型能力也会强。Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面,使两个模型都更强。
DeepSeek 在 2024 年 4 月推出的 DeepSeekMath 模型中首次采用了 GRPO(Group Relative Policy Optimization)算法,之后的 V3 和 R1 也应用了该算法提升模型的推理能力。
2025-03-06