RAG(Retrieval Augmented Generation)是一种结合了检索和生成的 AI 应用落地方案。它的主要思想是通过检索外部数据,并在生成步骤中将这些数据传递给 LLM,以增强生成的质量和多样性。
构建 RAG 通常包括以下步骤:
RAG 的落地应用包括:
在实际应用中,RAG 可以根据具体需求进行调整和优化,以提高其性能和效果。
因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前,我们需要先对RAG有一个大概的了解。以下内容会有些干,我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程:文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等文本分割(Splitting):文本分割器把Documents切分为指定大小的块,我把它们称为“文档块”或者“文档片”存储(Storage):存储涉及到两个环节,分别是:将切分好的文档块进行嵌入(Embedding)转换成向量的形式将Embedding后的向量数据存储到向量数据库检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片
RAG是一种结合了检索和生成的AI应用落地的方案,它可以根据给定的问题生成回答,同时利用外部知识库(例如维基百科)来增强生成的质量和多样性。RAG的核心思想是将问题和知识库中的文档进行匹配,然后将匹配到的文档作为生成模型的输入,从而生成更加相关和丰富的回答。RAG的检索流程可以分为以下几个步骤:load:加载文档,将各种格式的文件加载后转化为文档,例如将pdf加载为文本数据,或者将表格转换为多个键值对。split:将文档拆分为适合向量存储的较小单元,以便于与向量存储,以及检索时的文档匹配,例如将“我是kxc。我喜欢唱跳,rap,和篮球。”拆分为“我是kxc。”和“我喜欢唱跳,rap,和篮。”两个数据分块(一般称之为chunk)。embedding:将文档用向量表示,例如使用BERT或TF-IDF等模型进行向量化。store:将向量化后的数据分块,存入向量数据库。retrive:根据问题和文档的向量,计算它们之间的相似度,然后根据相似度的高低,选择最相关的文档作为检索结果,例如使用余弦相似度或点积等度量进行排序。
我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程:文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等文本分割(Splitting):文本分割器把Documents切分为指定大小的块,我把它们称为“文档块”或者“文档片”存储(Storage):存储涉及到两个环节,分别是:将切分好的文档块进行嵌入(Embedding)转换成向量的形式将Embedding后的向量数据存储到向量数据库检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片