Chat with Wiki - 如何构建RAG 有哪些RAG的落地应用

Answer

RAG（Retrieval Augmented Generation）是一种结合了检索和生成的 AI 应用落地方案。它的主要思想是通过检索外部数据，并在生成步骤中将这些数据传递给 LLM，以增强生成的质量和多样性。

构建 RAG 通常包括以下步骤：

文档加载：从多种不同来源加载文档，如 PDF、SQL、代码等。
文本分割：将文档切分为指定大小的块，称为“文档块”或“文档片”。
存储：涉及将切分好的文档块进行嵌入转换成向量形式，并将向量数据存储到向量数据库。
检索：通过某种检索算法找到与输入问题相似的嵌入片。

RAG 的落地应用包括：

本地部署大模型以及搭建个人知识库。
实现窗口上下文检索。
打造企业级知识库。

在实际应用中，RAG 可以根据具体需求进行调整和优化，以提高其性能和效果。

Content generated by AI large model, please carefully verify (powered by aily)

References

手把手教你本地部署大模型以及搭建个人知识库

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前，我们需要先对RAG有一个大概的了解。以下内容会有些干，我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的，那当我们需要依靠不包含在大模型训练集中的数据时，我们该怎么做呢？实现这一点的主要方法就是通过检索增强生成RAG（Retrieval Augmented Generation）。在这个过程中，首先检索外部数据，然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程：文档加载（Document Loading）：从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器，包括PDF在内的非结构化的数据、SQL在内的结构化的数据，以及Python、Java之类的代码等文本分割（Splitting）：文本分割器把Documents切分为指定大小的块，我把它们称为“文档块”或者“文档片”存储（Storage）：存储涉及到两个环节，分别是：将切分好的文档块进行嵌入（Embedding）转换成向量的形式将Embedding后的向量数据存储到向量数据库检索（Retrieval）：一旦数据进入向量数据库，我们仍然需要将数据检索出来，我们会通过某种检索算法找到与输入问题相似的嵌入片

开发：RAG高阶技巧-如何实现窗口上下文检索

RAG是一种结合了检索和生成的AI应用落地的方案，它可以根据给定的问题生成回答，同时利用外部知识库（例如维基百科）来增强生成的质量和多样性。RAG的核心思想是将问题和知识库中的文档进行匹配，然后将匹配到的文档作为生成模型的输入，从而生成更加相关和丰富的回答。RAG的检索流程可以分为以下几个步骤：load：加载文档，将各种格式的文件加载后转化为文档，例如将pdf加载为文本数据，或者将表格转换为多个键值对。split：将文档拆分为适合向量存储的较小单元，以便于与向量存储，以及检索时的文档匹配，例如将“我是kxc。我喜欢唱跳，rap，和篮球。”拆分为“我是kxc。”和“我喜欢唱跳，rap，和篮。”两个数据分块（一般称之为chunk）。embedding：将文档用向量表示，例如使用BERT或TF-IDF等模型进行向量化。store:将向量化后的数据分块，存入向量数据库。retrive：根据问题和文档的向量，计算它们之间的相似度，然后根据相似度的高低，选择最相关的文档作为检索结果，例如使用余弦相似度或点积等度量进行排序。

大圣：胎教级教程：万字长文带你使用Coze打造企业级知识库

我们都知道大模型的训练数据是有截止日期的，那当我们需要依靠不包含在大模型训练集中的数据时，我们该怎么做呢？实现这一点的主要方法就是通过检索增强生成RAG（Retrieval Augmented Generation）。在这个过程中，首先检索外部数据，然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程：文档加载（Document Loading）：从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器，包括PDF在内的非结构化的数据、SQL在内的结构化的数据，以及Python、Java之类的代码等文本分割（Splitting）：文本分割器把Documents切分为指定大小的块，我把它们称为“文档块”或者“文档片”存储（Storage）：存储涉及到两个环节，分别是：将切分好的文档块进行嵌入（Embedding）转换成向量的形式将Embedding后的向量数据存储到向量数据库检索（Retrieval）：一旦数据进入向量数据库，我们仍然需要将数据检索出来，我们会通过某种检索算法找到与输入问题相似的嵌入片