Chat with Wiki - openai 的偏好微调

Answer

偏好微调（Direct Preference Optimization）是 OpenAI 的一种新的微调方式。其操作方式是通过向模型展示两个不同的输出结果并指出哪个更好，模型将倾向于生成类似更“好”的结果。这种微调方式可以调整模型输出的风格，增加某种类型输出的权重，减少其他类型的权重。

Content generated by AI large model, please carefully verify (powered by aily)

References

OpenAI12场发布会每日记录-Day1-9

音频输入/输出的定价降幅十分显著：4o音频输入：原本是100美元/百万tokens，现降至40美元。4o音频输出：从200美元/百万tokens降至80美元。4o mini音频输入：从原来的100美元降至10美元。4o mini音频输出：从原来的200美元降至20美元。这意味着，开发者可以更具成本效益地利用实时语音交互功能，尤其适用于需要高频率、长时段对话的应用场景。[heading3]⚙️新的微调功能：偏好微调（DPO）[content]偏好微调（Direct Preference Optimization）：这是一种新的微调方式，可以调整模型输出的风格，增加某种类型输出的权重，减少其他类型的权重。操作方式：通过向模型展示两个不同的输出结果并指出哪个更好，模型将倾向于生成类似更“好”的结果。[heading3]?‍?开发者支持更新[content]SDK工具包更新：支持Python SDK，Go和Java的官方SDK也已更新，方便开发者直接调用API。GitHub地址：开发者可以访问[OpenAI Python SDK](https://github.com/openai/openai-python)，以获取最新工具和文档。[heading3]?竞争对手与市场趋势[content]尽管OpenAI在发布新功能方面仍在积极追赶市场趋势，但不少竞争对手已经在语音识别和实时对话交互方面走在前面，尤其是在某些东亚地区的AI软件中。随着定价的逐步降低，OpenAI预计能更广泛地吸引开发者使用实时语音功能，从而进一步扩大其市场份额。未来，OpenAI提到可能将实时语音API整合到AI眼镜等随身工具中，进一步扩展语音交互的应用场景。

文章：Andrej Karpathy 亲授：大语言模型入门

现在，让我们看看在第二阶段我是如何说的，以及我是如何进行比较的。我想简单地再次强调，因为还有第三阶段的微调，你可以选择进入或继续。在第三阶段的微调中，你将使用比较标签。让我向你展示这是什么样子的。我们之所以这样做，是因为在许多情况下，如果你是人工标注者，比较候选答案通常比自己编写答案要容易得多。例如，假设问题是写一首关于回形针的俳句。对于标注者来说，如果要我自己写一首俳句，那可能是一项非常困难的任务。但是，如果你有一些由第二阶段的助手模型生成的候选俳句，作为标注者，你可以查看这些俳句并实际选择一个更好的。在很多情况下，进行比较比生成更容易。第三阶段的微调可以利用这些比较来进一步微调模型。我不会详细讨论这方面的全部数学细节。在OpenAI，这个过程被称为基于人类反馈的强化学习或RLHF。这是一个可选的第三阶段，可以让你在这些语言模型中获得额外的性能。它利用了这些比较标签。我还想向你简要展示一张幻灯片，其中显示了我们向人类提供的一些标签说明。这是OpenAI论文InstructGPT的摘录。它只是向你展示，我们要求人们在标注时要乐于助人、诚实且无害。然而，这些标签文档可能会增长到数十或数百页，并且可能非常复杂。但这只是粗略地描述了它们的样子。

XiaoHu.AI日报

?Xiaohu.AI日报「12月07日」✨✨✨✨✨✨✨✨1⃣️?X平台Grok聊天机器人开放使用：免费用户每2小时可发送10条消息，与Grok互动。支持图像生成功能，使用Flux模型，效果极佳。?[https://x.com/imxiaohu/status/1865408893842751949](https://x.com/imxiaohu/status/1865408893842751949)2⃣️?Runway Act One更新：角色表演与声音转移功能：支持将用户表演的动作、声音转移到其他视频角色中。适用于真人表演与动画角色的动作表情同步或声音配音。演示示例：将唱歌声音转移到视频角色中，保持唇形一致。?[https://x.com/imxiaohu/status/1865340191000629335](https://x.com/imxiaohu/status/1865340191000629335)?更详细介绍：[https://mp.weixin.qq.com/s/0JJQq-ttJE0JUagTpAj77g](https://mp.weixin.qq.com/s/0JJQq-ttJE0JUagTpAj77g)3⃣️?OpenAI发布会第2天亮点：强化微调（RFT）技术强化微调（Reinforcement Fine-Tuning,RFT）提升模型从高中水平到专家水平。核心：使用少量高质量数据优化模型，使其适应法律、医疗等专业领域需求。专业训练目标：明确任务，优化推理路径，实现领域知识高效调用。