Chat with Wiki - 有没有路径可以围绕DS、豆包等大模型的检索结果做优化的路径

Answer

围绕 DS、豆包等大模型的检索结果做优化的路径包括以下方面：首先，通过集成收集 AI 反馈（AIF）聊天模型完成情况，然后利用 GPT-4（UltraFeedback）进行评分并二值化为偏好。其中，Step2-AIF 在某种程度上是一种 self-play，通过多模型 prompt 生成来进行 RL。在模型最终采用的 DPO 算法的 SFT 过程中，用于最终模型 SFT 所训练的 AIF 数据集与原始 pre-training 数据集在数据（tokens）序列组织构象上存在差异，这是一种 Synthetic Data 的路径，关键在于这种 Synthetic Data 与原始 Data 在特征与知识分布上的差异。 DPO 算法通俗来讲，当一个答案是好的答案时，模型要尽可能增大其被策略模型生成的概率；当一个答案是差的答案时，模型则需要尽可能降低其被策略模型生成的概率。以上是在 RL×LLM 方面的一些探索，接下来需要将上述模型案例以及延展的思考进行沉淀，回归第一性原理进行更进一步的本质探寻，以找到两者之间隐含的共性、差异以及呈现当前技术发展路径与现状的必然性。

Content generated by AI large model, please carefully verify (powered by aily)

References

融合RL与LLM思想，探寻世界模型以迈向AGI/ASI的第一性原理反思和探索「RL×LLM×WM>AI4S>AGI>ASI」

Step2-AIF：通过集成收集AI反馈(AIF)聊天模型完成情况，然后通过GPT-4(UltraFeedback)进行评分并二值化为偏好Step3-dDPO：利用反馈数据对dSFT模型进行直接偏好优化·DPO其中这里的Step2-AIF，即某种程度上的一种self-play，也是通过多模型prompt生成来进行的一种RL，试想，通过其中的AIF，对于模型最终所采用的DPO算法的SFT过程里，其用于最终模型的SFT所训练的AIF数据集在与原始pre-training数据集在数据(tokens)序列组织构象上应该有着一些差异，而这种差异是之前原始数据集在用于模型pre-training中很难找到的，而这也是一种Synthetic Data的路径，关键是这种Synthetic Data与原始Data上述中的那些特征与知识分布差异。DPO算法：如下公式的解析通俗来讲就是：当一个答案是好的答案时，模型要尽可能增大其被策略模型生成的概率，而当一个答案是差的答案时，模型则需要尽可能降低其被策略模型生成的概率。以上，我们在RL×LLM上开了一个小头，了解到了一些两种算法或训练模式的融合例子，并尝试做出了一些探索性思考，接下来，将上述模型case以及延展的思考进行一下沉淀，回归第一性原理进行更进一步的本质探寻，以求找到两者之间所隐含的的共性、差异以及之所以呈现出当前技术发展路径与现状的必然性。