Chat with Wiki - 增强检索生成

Answer

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合检索和生成能力的自然语言处理架构，旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。

通用语言模型通过微调可完成常见任务，而对于更复杂和知识密集型任务，基于语言模型构建访问外部知识源的系统能使结果更符合事实、更可靠，缓解“幻觉”问题。Meta AI 的研究人员引入了 RAG 方法来完成这类任务，它把信息检索组件和文本生成模型结合在一起，可微调且内部知识修改高效，无需重新训练整个模型。

RAG 工作流程如下：

检索：利用用户查询从外部知识源获取相关信息，将查询转化为向量与向量数据库比对，找到最匹配的前 k 个数据作为补充背景信息。
数据库索引：包括离线获取数据、清理提取原始数据、转换文件格式、分块、嵌入和创建索引等步骤。
增强：将用户查询和检索到的额外信息嵌入预设提示模板。
生成：将问题与相关文档合并为新提示信息，由大语言模型回答问题，可选择依赖知识库或仅基于给定信息，也可融入历史对话信息支持多轮对话。

LLM 需要 RAG 的原因在于 LLM 存在一些缺点：

无法记住所有知识，尤其是长尾知识，接受能力不高。
知识容易过时且不好更新，微调效果不佳且有丢失原有知识的风险。
输出难以解释和验证，易受幻觉等问题干扰。
容易泄露隐私训练数据。
规模大，训练和运行成本高。

RAG 具有以下优点：

数据库对数据的存储和更新稳定，无学习风险。
数据库数据更新敏捷，可解释且不影响原有知识。
数据库内容明确结构化，降低大模型输出出错可能。
便于管控用户隐私数据，可控、稳定、准确。
降低大模型训练成本，新知识存储在数据库无需频繁更新模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

检索增强生成 (RAG)

通用语言模型通过微调就可以完成几类常见任务，比如分析情绪和识别命名实体。这些任务不需要额外的背景知识就可以完成。要完成更复杂和知识密集型的任务，可以基于语言模型构建一个系统，访问外部知识源来做到。这样的实现与事实更加一性，生成的答案更可靠，还有助于缓解“幻觉”问题。Meta AI的研究人员引入了一种叫做[检索增强生成（Retrieval Augmented Generation，RAG）(opens in a new tab)](https://ai.facebook.com/blog/retrieval-augmented-generation-streamlining-the-creation-of-intelligent-natural-language-processing-models/)的方法来完成这类知识密集型的任务。RAG把一个信息检索组件和文本生成模型结合在一起。RAG可以微调，其内部知识的修改方式很高效，不需要对整个模型进行重新训练。RAG会接受输入并检索出一组相关/支撑的文档，并给出文档的来源（例如维基百科）。这些文档作为上下文和输入的原始提示词组合，送给文本生成器得到最终的输出。这样RAG更加适应事实会随时间变化的情况。这非常有用，因为LLM的参数化知识是静态的。RAG让语言模型不用重新训练就能够获取最新的信息，基于检索生成产生可靠的输出。Lewis等人（2021）提出一个通用的RAG微调方法。这种方法使用预训练的seq2seq作为参数记忆，用维基百科的密集向量索引作为非参数记忆（使通过神经网络预训练的检索器访问）。这种方法工作原理概况如下：图片援引自:[Lewis et el.(2021)(opens in a new tab)](https://arxiv.org/pdf/2005.11401.pdf)

问：RAG 是什么？

1.检索：此过程涉及利用用户的查询内容，从外部知识源获取相关信息。具体来说，就是将用户的查询通过嵌入模型转化为向量，以便与向量数据库中的其他上下文信息进行比对。通过这种相似性搜索，可以找到向量数据库中最匹配的前k个数据，作为当前问题的补充背景信息。2.数据库索引：指的是在离线状态下，从数据来源处获取数据并建立索引的过程。具体而言，构建数据索引包括以下步骤：3.数据索引：包括清理和提取原始数据，将PDF、HTML、Word、Markdown等不同格式的文件转换成纯文本。4.分块：将加载的文本分割成更小的片段。由于语言模型处理上下文的能力有限，因此需要将文本划分为尽可能小的块。5.嵌入和创建索引：这一阶段涉及通过语言模型将文本编码为向量的过程。所产生的向量将在后续的检索过程中用来计算其与问题向量之间的相似度。由于需要对大量文本进行编码，并在用户提问时实时编码问题，因此嵌入模型要求具有高速的推理能力，同时模型的参数规模不宜过大。完成嵌入之后，下一步是创建索引，将原始语料块和嵌入以键值对形式存储，以便于未来进行快速且频繁的搜索。6.增强：接着，将用户的查询和检索到的额外信息一起嵌入到一个预设的提示模板中。7.生成：最后，将给定的问题与相关文档合并为一个新的提示信息。随后，大语言模型（LLM）被赋予根据提供的信息来回答问题的任务。根据不同任务的需求，可以选择让模型依赖自身的知识库或仅基于给定信息来回答问题。如果存在历史对话信息，也可以将其融入提示信息中，以支持多轮对话。文章源链接：https://juejin.cn/post/7341669201008869413（作者：lyc0114）

问：RAG 是什么？

RAG（Retrieval-Augmented Generation），即检索增强生成，是一种结合检索和生成能力的自然语言处理架构，它旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。简单来说，就是通过检索的模式，为大语言模型的生成提供帮助，从而使大模型生成的答案更符合要求。[heading2]为什么LLM需要RAG？[content]众所周知，大模型已经在很多领域和问题下都取得了很好的效果，那为什么还需要RAG进行检索优化呢？[heading3]LLM的缺点[content]1.LLM无法记住所有知识，尤其是长尾的。受限于训练数据、现有的学习方式，对长尾知识的接受能力并不是很高；长尾数据是指数据集中某些类别数量较少，而其他类别样本数较多的不平衡“长尾”状态。例如在自然语言处理中，一些少见的词汇出现频率很低，而常见的词汇出现频率很高。2.LLM的知识容易过时，而且不好更新。只是通过微调，模型的接受能力其实并不高而且很慢，甚至有丢失原有知识的风险；3.LLM的输出难以解释和验证。一方面最终的输出的内容黑盒且不可控，另一方面最终的结果输出可能会受到幻觉之类的问题的干扰；4.LLM容易泄露隐私训练数据。用用户个人信息训练模型，会让模型可以通过诱导泄露用户的隐私；5.LLM的规模大，训练和运行的成本都很大。[heading3]RAG的优点[content]1.数据库对数据的存储和更新是稳定的，不像模型会存在学不会的风险。2.数据库的数据更新可以做得很敏捷，增删改查可解释，而且对原有的知识不会有影响。3.数据库的内容是明确、结构化的，加上模型本身的理解能力，一般而言数据库中的内容以及检索算法不出错，大模型的输出出错的可能就大大降低。4.知识库中存储用户数据，为用户隐私数据的管控带来很大的便利，而且可控、稳定、准确。5.数据库维护起来，可以降低大模型的训练成本，毕竟新知识存储在数据库即可，不用频繁更新模型，尤其是不用因为知识的更新而训练模型。