SFT 即监督微调(Supervised FineTuning),以下是关于 SFT 的一些相关信息:
在苹果大模型 MM1 的研究中,研究者在预训练模型之上训练了监督微调实验,从不同的数据集中收集了约 100 万个 SFT 样本,并采用扩展到高分辨率的 SFT 方法,监督微调结果显示出了模型的优越性能。
在多模态大模型的训练中,多模态微调包括监督微调(SFT)和 RLHF 两部分,目的是使模型符合人类的意图或偏好,并增强交互能力。SFT 将预训练阶段的数据转换为指令感知的格式,优化目标与预训练相同,SFT 数据可构造为单轮或多轮的 QA。
在 Gemini report 中,指令调优涵盖有监督的微调(SFT)和通过人类反馈的强化学习(RLHF),SFT 需要对“优质”数据进行整理,以进行奖励模型训练和 RLHF,数据混合比例通过较小的模型进行消融,以平衡有用性指标和减少模型危害。
2025-03-26