Chat with Wiki - 不确定逻辑增长模型

Answer

对于逻辑增长模型的相关问题，以下是为您提供的信息：

张俊林在相关研究中指出，对于简单或中等难度的逻辑推理问题，通过 inference-time 增加算力，比如树搜索等方式，比增强模型“预训练”阶段的逻辑推理能力效果更明显。这一结论来自于文献“Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”及“Are More LM Calls All You Need?Towards the Scaling Properties of Compound AI Systems”。

其原因在于，对于简单或中等难度的问题，模型在 inference 时很可能给出答案中的大部分步骤是对的（或多次采样中多数是对的），只有个别步骤错误，通过如 Best-of-N Sampling 这种简单树搜索方法增加输出的多样性，加上靠谱的 Verifier 筛选，较容易修正小错误。但对于高难度的逻辑问题，模型输出内容中大部分步骤可能都是错的（或多次采样中大多数都是错的），此时仅靠 inference-time 增加算力难以解决。

此外，OpenAI o1 的基座模型，在 Pre-training 还是 Post-training 阶段，大概率极大增强了基座模型的复杂逻辑推理能力，这是它能在后续 inference-time 增加算力解决复杂问题的根基。所以，只靠 inference-time 增加算力，仅对容易和中等难度的逻辑问题有用，想要不断提升模型的复杂推理能力，还需要继续在 Pre-Train 和 Post-Training 阶段下功夫。

Content generated by AI large model, please carefully verify (powered by aily)

References

张俊林：Reverse-o1: OpenAI o1原理逆向工程图解

这个结论来自于文献“Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”及“Are More LM Calls All You Need?Towards the Scaling Properties of Compound AI Systems”，它们证明了：对于简单或者中等难度的逻辑推理问题，通过inference-time增加算力，比如树搜索等方式，比去增强模型的“预训练”阶段的逻辑推理能力来得效果要明显；而对于高难度的逻辑推理问题，则只靠inference-time很难提升，有时还是负面作用，不如去增强模型“预训练”阶段的逻辑能力(参考上图)。这是为啥呢？您可以想想，其实里面的道理细想一下很好理解。这是因为对于简单或中等难度的问题，模型在inference的时候很可能给出答案中的大部分步骤都是对的（或者多次采样中多数是对的），只有个别步骤错误，导致最终回答错误。通过比如Best-of-N Sampling这种简单树搜索方法来增加输出的多样性，再加上靠谱的Verifier筛一筛，是比较容易把这个小错误修正过来的。但对于高难度的逻辑问题，因为模型输出内容中大部分步骤可能都是错的（或者多次采样中大多数都是错的，这种情况你投个票采取多数人意见看看，结果估计很悲催），你想靠inference-time增加算力无力回天。我自己也是根据上述思考，才进一步反推出上面讲的o1可能的训练过程的：OpenAI o1的基座模型，不论是Pre-training还是Post-training阶段，大概率极大增强了基座模型的复杂逻辑推理能力，这是它能在后续inference-time增加算力解决复杂问题的根基。所以关于这个点的结论应该是这样的：只靠inference-time增加算力，仅对容易和中等难度的逻辑问题有用，想要不断提升模型的复杂推理能力，还需要继续在Pre-Train和Post-Training阶段下功夫。