大语言模型近年发展迅速。2017 年发布的 Attention Is All You Need 论文是其起源,此后基于大量语料的预训练模型不断涌现。例如,2018 年 Google 提出的 BERT 采用双向预训练和掩码语言建模,开创了预训练语言表示范式;OpenAI 提出的 GPT 仅使用自回归语言建模作为预训练目标,展示了强大的语言生成能力;Meta 在 2021 年提出的 LLAMA 则是首个开源模型。
过去几年,大型语言模型取得巨大成功,如 BERT 和 GPT-3,这得益于大量通用文本数据的可用性。我们可在通用文本集合上对模型进行预训练,然后针对具体任务进行专门化。
Andrej Karpathy 认为,大型语言模型不仅是聊天机器人或单词生成器,更类似于新兴操作系统的内核进程,能协调大量资源解决问题。未来,它们将能读取和生成文本,拥有更丰富知识,利用现有软件基础架构,具备查看和生成图像与视频、听取和创作音乐、利用系统 2 深入思考等能力。在特定领域内,还能自我优化,并针对许多特定任务进行定制和细微调整。或许,许多 LLM 专家将存在于一个能协同解决问题的应用程序商店中。
综上所述,我认为将大型语言模型仅视为聊天机器人或单词生成器是不准确的。更恰当的比喻是,它们类似于新兴操作系统的内核进程,协调大量资源来解决问题。考虑到我所展示的信息,我们可以设想几年后的大型语言模型将如何发展。它们将能够读取和生成文本,拥有比任何个人更丰富的知识,通过检索增强生成浏览互联网或引用本地文件。它能够利用现有的软件基础架构,例如计算器、Python等。它具备查看和生成图像与视频的能力。它能够听取、发声并创作音乐。它能够利用系统2进行深入思考。在某些具备奖励机制的特定领域内,它能够自我优化。它可能能够针对许多特定任务进行定制和细微调整。或许,许多LLM专家几乎都存在于一个能够协同解决问题的应用程序商店中。因此,我发现这个新的LLM OS操作系统与当今的操作系统有许多相似之处。这有点像一个图表,它几乎看起来与当今的计算机无异。
在过去几年中,我们见证了大型语言模型的巨大成功,例如BERT和GPT-3。这主要归功于有大量的通用文本数据可供使用,让我们可以训练模型来捕捉文本的结构和含义,在通用文本集合上对它们进行预训练,然后针对更具体的任务对这些模型进行专门化。我们将在本课程的后半部分学习更多有关自然语言处理的知识。
这一切的起源是2017年发布的Attention Is All You Need([4])论文,之后基于大量语料的预训练模型百花齐放,比如:BERT(Bidirectional Encoder Representations from Transformers):Google在2018年提出,创新性的双向预训练并行获取上下文语义信息,以及掩码语言建模(MLM)让模型更好地推断语义信息。它开创了预训练语言表示范式,对自然语言处理产生了深远影响。参数规模:110M到340MGPT(Generative Pre-trained Transformer):OpenAI在2018年提出,开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号。它展示了通过无监督大规模预训练获得的语言生成能力,对研究与应用都带来重大影响。参数规模:1750亿Large LAnguage Model Approach(LLAMA):Meta在2021年提出,首个开源模型。为构建更大规模、更通用的语言模型提供了系统化的方法与工具。参数规模:十亿到千亿