围绕 DS、豆包等大模型的检索结果做优化的路径包括以下方面: 首先,通过集成收集 AI 反馈(AIF)聊天模型完成情况,然后利用 GPT-4(UltraFeedback)进行评分并二值化为偏好。其中,Step2-AIF 在某种程度上是一种 self-play,通过多模型 prompt 生成来进行 RL。在模型最终采用的 DPO 算法的 SFT 过程中,用于最终模型 SFT 所训练的 AIF 数据集与原始 pre-training 数据集在数据(tokens)序列组织构象上存在差异,这是一种 Synthetic Data 的路径,关键在于这种 Synthetic Data 与原始 Data 在特征与知识分布上的差异。 DPO 算法通俗来讲,当一个答案是好的答案时,模型要尽可能增大其被策略模型生成的概率;当一个答案是差的答案时,模型则需要尽可能降低其被策略模型生成的概率。 以上是在 RL×LLM 方面的一些探索,接下来需要将上述模型案例以及延展的思考进行沉淀,回归第一性原理进行更进一步的本质探寻,以找到两者之间隐含的共性、差异以及呈现当前技术发展路径与现状的必然性。
Step2-AIF:通过集成收集AI反馈(AIF)聊天模型完成情况,然后通过GPT-4(UltraFeedback)进行评分并二值化为偏好Step3-dDPO:利用反馈数据对dSFT模型进行直接偏好优化·DPO其中这里的Step2-AIF,即某种程度上的一种self-play,也是通过多模型prompt生成来进行的一种RL,试想,通过其中的AIF,对于模型最终所采用的DPO算法的SFT过程里,其用于最终模型的SFT所训练的AIF数据集在与原始pre-training数据集在数据(tokens)序列组织构象上应该有着一些差异,而这种差异是之前原始数据集在用于模型pre-training中很难找到的,而这也是一种Synthetic Data的路径,关键是这种Synthetic Data与原始Data上述中的那些特征与知识分布差异。DPO算法:如下公式的解析通俗来讲就是:当一个答案是好的答案时,模型要尽可能增大其被策略模型生成的概率,而当一个答案是差的答案时,模型则需要尽可能降低其被策略模型生成的概率。以上,我们在RL×LLM上开了一个小头,了解到了一些两种算法或训练模式的融合例子,并尝试做出了一些探索性思考,接下来,将上述模型case以及延展的思考进行一下沉淀,回归第一性原理进行更进一步的本质探寻,以求找到两者之间所隐含的的共性、差异以及之所以呈现出当前技术发展路径与现状的必然性。