Chat with Wiki - 偏推理型的内容，怎么提升模型的推理深度及准确度？

Answer

提升模型推理深度及准确度的方法包括以下几个方面：

扩大模型规模：随着模型规模的扩大，其推理能力会得到提升，类似于 AlphaGo 或 AlphaZero 的工作方式，通过蒙特卡罗推演来修改评估函数，从而提高推理精度。
引入多模态学习：引入图像、视频和声音等多种模式将极大地改变模型的理解和推理能力，特别是在空间理解方面。多模态模型可以通过更多的数据和更少的语言来进行学习。
优化训练方法：
- RLHF（Reinforcement Learning from Human Feedback）：模型在这个过程中的目标是最大程度地获得人类的认可，通过奖励模型来衡量。
- 结合不同的推理能力提高途径：将生成不同的思维链（CoT）并选择有效路径的方法，与在部署时用大量计算进行推理的方法结合起来。
改进模型结构和算法：
- 规模和算法是科技进步的关键因素，数据和计算规模具有决定性作用。
- 在模型之上添加启发式方法或增加模型本身的规模。

此外，Hinton 还提到了一些相关观点，如最合理的模型是将符号转换成大向量并保留符号的表面结构，大型语言模型通过寻找共同的结构来提高编码效率，以及即使训练数据中有错误，大型神经网络也具有超越训练数据的能力等。

Content generated by AI large model, please carefully verify (powered by aily)

References

Hinton认为，随着模型规模的扩大，其推理能力会得到提升。这种推理能力的提升类似于AlphaGo或AlphaZero的工作方式，它们通过蒙特卡罗推演来修改评估函数，从而提高推理精度。大型语言模型也应该开始通过推理来训练，而不仅仅是模仿人类的行为。在多模态学习方面，Hinton认为引入图像、视频和声音等多种模式将极大地改变模型的理解和推理能力，特别是在空间理解方面。多模态模型可以通过更多的数据和更少的语言来进行学习，这将使其在未来占据主导地位。在语言与认知的关系上，Hinton提出了三种观点：符号观点、向量观点和嵌入观点。他认为，最合理的模型是将符号转换成大向量，但保留符号的表面结构，这样可以更好地理解和预测下一个符号。Hinton回顾了他在2009年提出使用GPU进行神经网络训练的早期直觉。他发现，使用GPU可以将运算速度提高30倍，这对于机器学习研究人员来说至关重要。他在NIPS会议上公开推荐了NVIDIA的GPU，并向NVIDIA请求赞助，最终得到黄仁勋的支持。Hinton提出，模拟计算可以在较低的功率下运行大型语言模型，但每个硬件的特性都会有所不同，因此学习过程需要利用硬件的特定属性。然而，这种方法的局限性在于，当一个人去世后，他的大脑中的权重对其他人没有用处。相比之下，数字系统可以通过共享权重来提高效率，因为一旦有了权重，就可以在不同的计算机上复制相同的计算过程。这种方式使得数字系统在知识共享方面远胜于人类。Hinton还讨论了神经科学的时间尺度问题，指出在大脑中，权重改变的时间尺度很多，这是我们的神经模型尚未实现的。大脑使用快速权重进行临时记忆，而我们的模型由于需要处理大量不同的情况，所以无法实现这一点。

OpenAI联创：RLHF是超级智能的秘密武器

Dwarkesh Pa tel：在今天模型的发展过程中，RLHF不仅仅影响了chatbot的“人格”，也教会了模型选择输出什么、以什么样的形态输出。如果把RLHF对模型训练的这些影响映射到人类心理学上的话，你觉得RLHF起到了什么样的功能？是驱动力、目标还是某种冲动？John Schulman：人类的动机和目标其实和AI有相似的地方，比如我们在追求目标时，往往会努力达到某种特定的状态，尽量避免和目标不符的状态。当然我们对动机或目标的理解不止这些，还包括实现目标时获得的满足感等等。这些因素主要和学习算法的过程更相关，并不是模型已经训练完成固定模式之后的行为。虽然不确定这种类比是不是贴切，但一定程度上，模型确实以某种有意义的方式拥有了“动机”和“目标”。以RLHF为例，模型在这个过程中的目标是最大程度地获得人类的认可，这种认可通过奖励模型（reward model）来衡量。实际上，模型努力产出的是人们可能会喜欢并认为正确的结果。Dwarkesh Pa tel：我了解到模型提高推理能力的途径主要有两种。一种是生成不同的思维链（CoT），选择能够带来正确答案的路径。在部署前，模型会基于这些有效的思考路径进行训练；另外一种是在部署时用大量计算进行推理，模型在这种场景下可以和自己对话。你觉得哪种更接近高推理水平模型会采用的训练方法？这样的推理能力是因为模型进行了大量的推理计算，还是因为训练过程中特别强调了逻辑推理性能的提升？John Schulman：推理在这里可以被定义为在测试阶段需要进行某种计算或逻辑推演的任务。按照这个定义，推理任务涉及到在测试时进行的逐步计算过程，还有在训练阶段进行的大量实践，所以我觉得把这两种方法结合起来能达到最佳的效果。

规模和算法是科技进步的关键因素。他认为Ilya Sutskever关于系统规模足够大就能更好运作的观点已被证实。尽管Transformer等新想法很重要，但数据和计算规模才是决定性因素。Hinton回顾了他与Ilya和James Martins在2011年发表的一篇论文，该论文使用字符级预测和维基百科数据进行实验，结果令人惊讶。他解释说，这种方法并非错误，而是一种有效的学习方式。事实上，Hinton是第一个使用嵌入和反向传播的神经网络语言模型的创造者。他进一步阐述了这种模型的工作原理，即通过预测下一个符号来理解问题，这与传统的自动完成功能有很大不同。Hinton认为，这种模型的理解方式与人类非常相似，尽管许多人认为这些模型只是在预测下一个符号，而没有进行推理。谈到大型语言模型的工作原理时，Hinton解释说它们通过寻找共同的结构来提高编码效率。他以GPT-4回答问题为例，说明这种模型如何通过理解看似不同事物之间的类比来进行创新。Hinton还提到了AlphaGo的例子，解释了强化学习如何使其超越当前状态。他认为，这可能是当前数据实验室所缺少的组件，但并非完全必要。他还提到了一个实验，即使训练数据中有一半的答案是错误的，反向传播也能将误差降低到5%或更低，这表明大型神经网络实际上具有超越训练数据的能力。为了提高这些模型的推理能力，Hinton提出了两种可能的方法：一种是在模型之上添加启发式方法，另一种是增加模型本身的规模。本文主要讨论了大型语言模型的推理能力、多模态学习、语言与认知的关系以及早期使用GPU进行神经网络训练的直觉。