围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
结合上一篇“AlphaDev的尝试”与“Algorithm Distillation的启迪”两个章节内容的思想回顾,我们似乎看到在以泛GPT为代表的预训练自回归编码模型(即LLM)与泛Alpha系列为代表的RL之间存在着一些事情,像是幽灵鬼魅般的位于不同空间中的两个量子间的纠缠,又像是看似不同物种在沿着遗传轨迹向上追溯的过程。因此,为了更深入的探究两者之间的本质,希望还是通过深入一个历史上经典而又成熟的两个前后进化模型·AlphaGO/Zero来一探究竟。在围棋这一古老的游戏中,AI的挑战如同星辰大海般辽阔。围棋的搜索空间巨大,棋面的好坏难以准确评估,这给AI带来了极大的困扰。然而,DeepMind团队却勇敢地迎接了这个挑战。他们提出了一种全新的方法,利用价值网络来评估棋面的优劣,再通过策略网络选择最佳落子。(AlphaZero仅使用单一网络来决策步数,不像AlphoGO采用双塔网络,但背后的RL思想是一致的)其中,AlphaGO这两个网络的训练过程十分类似人类的思维模式。价值网络和策略网络均以人类高手的对弈数据以及AI自我博弈的数据为基础进行训练,就像我们小时候学习围棋一样,但对于起来来说,这种更硬核的训练方式使得这两个网络在围棋对弈中达到了蒙特卡洛树搜索的水平。但DeepMind并未满足于此。他们再次进行了创新,将这两个网络与蒙特卡洛树搜索有机地结合在一起,打破了原有的局限。这种思想,使得AI在围棋领域取得了前所未有的突破。不仅提升了AI在围棋领域的实力,更为未来的科技发展打开了新的篇章。
在围棋这一复杂领域AI第一次战胜人类,神来之笔37步,也预示着在其它的复杂领域上AI在与人类的智能对比的进一步突破的可能强化学习(RL)大放异彩5、ChatGPT意义:就不多说了,ps:这里之所以放IIya的照片是为他对GPT所做的贡献,对AGI的敬畏以及对AI未来安全的谨慎态度的敬意。以上列举了作者本人认为的在人工智能发展历程中,有重大意义和影响的一些事件或技术突破,当然,为了聚焦到我们本小节的「RL与LLM融合的本质&阐释」这一本质问题的探索,从题目中我们也可以发现结合当下LLM这一技术路线发展面临的瓶颈似乎与RL多少更加相关一些。(这里并不是说之前的感知机、AlexNet、Transformer甚至是Logic Theorist并不重要,他们都为当前的LLM的发展打下了非常坚实的基础正如在「上篇」中的开头部分,我们从Alpha系列开始讲起并在「上篇」中的中间部分详细对AlphaGO和AlphaZero进行方法回顾,对Algorithm Distillation(AD)方法给我们的启迪所带来的进一步的探索和思考,以及介绍了AMIE中所采用的基于self-play环境下的RL思想及内涵。我们现在似乎能够感觉到LLM与RL在当下与未来会存在某种联系。在「上篇」中的最后,我们尝试对LLMs的本质进行探查中,我们了解到最初的LLMs在scaling law下,最终突破了临界点达到了能力的涌现,但这种自回归的序列标记预测的模式(AR prediction+tokenize),是否能够最终在更多人类历史数据样本和进一步扩大模型参数并扩展算力的基础上突破新的瓶颈呢?在这里,我们发现出现了三个方面的问题:
如果识别一个印刷体图片,我可能会怎么做神经网络解决的是未知规则的处理。先把图片都变成黑白大小变成固定尺寸和数据库的东西对比得出结论然而,这种情况过于理想化。不仅存在多种字体,即使对于印刷体,不同的拍摄角度也引入了多种例外情况。虽然存在图形算法进行矫正,但整体方法仍然是基于不断添加规则。这种方法本质上是试图通过不断增加和完善规则来解决问题,这显然是不可行的。虽然这种方法可以解决象棋的问题,但对围棋来说就非常困难了。围棋的每个节点有三种可能状态:白、黑或空,加上不同节点间状态的组合,现有的资源无法应对。神经网络专门处理未知规则的情况。将图片转换为黑白,调整图片至固定尺寸,与数据库中的内容进行对比,最终得出结论。神经网络的发展得益于生物学研究的支持,并且在数学上提供了一种方向,使其能够处理未知的情况,如手写体识别。关于这部分内容,非常建议看《这就是ChatGPT》这本书,它的作者是被称为”在世的最聪明的人”,研究神经网络几十年,创作了Mathematica、Wolfram等备受推崇的软件,这本书最特别之处还在于,导读序是美团技术学院院长刘江老师回顾了整个AI技术发展的历史,对于了解AI,大语言模型计算路线的发展,起到提纲挈领的作用,非常值得一读。本文写作过程中得到了[byzer-llm](https://github.com/allwefantasy/byzer-llm)作者祝威廉的大力支持,在此感谢。byzer-llm选择了一个非常特别的技术路线,在大模型时代显得尤为重要。