以下是一些针对 CoT 能力的微调工具:
此外,在将 DoT 扩展到预训练的扩散语言模型 Plaid 1B 并在更复杂的推理任务上进行评估时,自回归模型和扩散模型在使用 CoT 或 DoT 进行微调时都显示出显著提高的性能。在微调 Plaid 1B 时,也探索了几种替代方案。
在强化学习驱动的合成数据生成与模型优化流程中,也涉及到 CoT 的相关应用和优化,如初始 CoT 生成、CoT 存储等。
除了各种XoT以外,对于推理过程的“解码”问题,也有一些工作进行了研究。其中,推理聚合的代表性工作是Self-consistency CoT。Self-consistency CoT使用手动设计的Prompt生成采样一组不同的推理路径,再通过“多数投票”找到推理步骤中“最一致”的路径,使用这条解码路径驱动原始的贪心解码方式来提示CoT性能。[heading4]8.3.3多模态CoT[content]除了对CoT本身的改变,还有许多工作将CoT“部署”于不同的应用场景之下以提升各种场景下大模型的能力,譬如最简单的从单语言CoT扩展到多语言CoT。这些应用场景包括从单模态到多模态以及从复杂推理任务到通用推理任务的扩展。其中,多模态CoT具有很大的应用前景,在CoT中,多模态可以分为两类:输入多模态与输出多模态。其中,MM-CoT侧重使用微调方法嵌入CoT,通过将语言和图像合并在一个包含推理生成与答案推理的两阶段的框架中,使用微调大模型赋予输入多模态CoT的能力。基于MM-CoT,GoT-Input方法通过对CoT生成的思维图进行抽取构建三元组,并使用GNN将文本、图像与CoT统一,从而生成包含CoT信息的最终答案。而区别于输入多模型,VCoT解决了一个输出多模态的问题,VCoT通过以生成图片的“标题”以及识别核心关注点作为图像生成的启动过程,通过递归的方式填充图像信息,从而实现输出多模态。
接下来作者将DoT扩展到预训练的扩散语言模型Plaid 1B并在更复杂的推理任务上进行评估,即GSM8K。在下表中,与不使用CoT/DoT相比,自回归模型和扩散模型在使用CoT或DoT进行微调时都显示出显著提高的性能。这表明增加的计算(推理时间)带来了实质性的好处。DoT,与隐式CoT有类似的公式,但展现出比它更显著增强的推理能力,可与微调CoT模型的GPT-2相媲美。多通道DoT表现略优于单通道版本,而后者更高效。在微调Plaid 1B时,作者探索了几种替代方案并进行了如表3所示的消融研究。使用GSM8K增强数据集继续预训练Plaid 1B并使用基于梯度的条件进行推理,对于在下游任务上微调扩散LM来说不是一个好选择,因为推理任务需要更具体的指导。我们看到,这篇文章采用diffusion的思想对问题上下文及链式思考推理路径z0=EMB([s;r1...n])进行过程学习采样,并在其中通过一些tricks进行施躁和降噪的梯度修正。
|标题|附件|标签|备注|链接|时间|SourceID||-|-|-|-|-|-|-||强化学习驱动的合成数据生成与模型优化流程||技术|数据生成与整合:<br>结合真实数据与合成数据。<br>利用合成数据生成器和合成对话数据集(CoT Generator)创建训练数据。<br>通过人类专家提供反馈,实现持续学习。<br><br>模型训练:<br>使用强化学习(RL)和高级技术训练模型,基于奖励和效率进行优化。<br>包括人类标注(非正式领域)和验证(正式领域)。<br>探索与利用的平衡。<br>训练阶段涉及奖励函数、语言模型、RL环境、策略优化器、梯度计算和参数更新。<br><br>模型优化:<br>多智能体训练、课程学习和对抗性训练。<br>高级RL技术,如基于模型的RL和元学习。<br><br>推理与迭代优化:<br>从真实世界数据中学习,考虑测试时计算变量。<br>初始CoT生成,效率监控,变量细化时间和搜索回溯。<br>测试时计算与准确性的权衡,首次推理,训练模型,CoT细化和最终响应。<br><br>存储与应用:<br>CoT存储,使模型能够持续更新和优化。<br>整个流程展示了一个以强化学习为核心的数据生成、模型训练和优化的闭环系统,旨在提高模型的推理能力和准确性。||2024/09/12|NzM2MTQwNjg2MzI4NTUxODM0MDpyZWN1cGhEYmRDMHRvVDo1NjlmMzkzYzEzYjI1YzhhZmFmNmNmZTQ5Yjc5Y2RhMjox|