Chat with Wiki - 怎么写文档会让RAG 效果更好

Answer

要让 RAG 效果更好地写文档，您可以参考以下要点：

文档切割：
- 合理的文档切割能让系统返回更完整、连贯的结果。例如，对于“猫咪的饮食习惯是什么？”的查询，将相关内容切割为“猫咪的饮食习惯取决于它们的年龄、健康状况和品种。”和“幼猫需要更多的蛋白质，而成年猫则需要均衡的营养。”这样的文档块。
- 目前免费平台一般提供智能切割和手动切割两种方式。但在当下技术水平下，智能切割效果一般，对于以问答为主的客服场景，将一个问答对切成一个文档片，检索效果会很好。
整理知识库文档阶段：
- 确定知识库包含的文档类型，如政策原文文档、业务积累的 QA、操作指引、产品说明等，并进行预处理。
- 知识库本身质量对最终效果至关重要，是大模型生成回答的原始语料。
- 优化方向包括：
  - 文档格式：PDF 文档格式信息相对简洁，干扰少，但也有说.docx 效果更优的，需根据场景测试。
  - 文档命名：尽量控制在 10 字左右，涵义简洁明了，避免无意义的数字、符号或缩写。
  - 文档语言：尽量统一为同一种，避免中英文混切导致乱码和无用数据。
  - 文档内容：设置清晰的一二级标题，对特殊元素进行处理。
  - 构建问答对：能达到更好效果，但耗费人力和运营成本，需综合考虑。
通用语言模型微调可完成常见任务，更复杂和知识密集型任务可基于语言模型构建系统，访问外部知识源。Meta AI 引入的 RAG 方法把信息检索组件和文本生成模型结合，可接受输入并检索相关文档，给出来源，适应事实变化，不用重新训练就能获取最新信息并生成可靠输出。Lewis 等人（2021）提出通用的 RAG 微调方法，使用预训练的 seq2seq 作为参数记忆，用维基百科的密集向量索引作为非参数记忆。

Content generated by AI large model, please carefully verify (powered by aily)

References

[title]这可能是讲Coze的知识库最通俗易懂的文章了[heading1]影响RAG输出质量的因素[heading2]文档切割1."猫咪喜欢吃各种各样的食物，包括鱼、鸡肉和干粮。"2."猫咪的饮食习惯取决于它们的年龄、健康状况和品种。"3."幼猫需要更多的蛋白质，而成年猫则需要均衡的营养。"4."确保猫咪的饮食中包含足够的水分非常重要，以避免肾脏问题。"假设用户查询：“猫咪的饮食习惯是什么？”合理的文档切割会让系统返回如下更完整的结果：文档块2：“猫咪的饮食习惯取决于它们的年龄、健康状况和品种。”文档块3：“幼猫需要更多的蛋白质，而成年猫则需要均衡的营养。”这样，用户得到的回答是连贯且完整的。我希望你可以通过上面这个例子了解文档切割对于RAG的重要性，那我们该如何将文档切割的更合理呢？各个免费的平台一般都提供了两种文档切割方式，分别是：智能切割：由系统通过上下文理解进行切割手动切割：用户可以指定固定的分隔符来对文档进行切割如果我们想通过利用Coze等免费平台搭建知识库，在当下的技术水平下，智能切割并不是一个很好的方式，因为目前来讲Coze等免费平台提供的智能切割方式效果一般。那是不是Coze的知识库就完全不能用了？当然不是，对于某一个业务场景，RAG的表现都是比较稳定的，那就是以问答为主的客服场景。这里最主要的原因就是问答场景的格式非常固定，那就是问答对，只要我们在切割的时候将一个问答对切成一个文档片，那么在检索的时候效果就会非常好。这里给大家一个QA问答对的格式：

开发：产品视角的大模型 RAG 应用

在最开始，我们需要确定知识库包含哪些文档，比如政策原文文档、业务积累的QA、操作指引、产品说明等，并对这些文档进行预处理。知识库本身质量对最终效果的影响至关重要，这是大模型最终生成回答的原始语料。在此阶段，可以考虑以下优化方向：文档的格式：pdf、docx()等不同格式的文档，识别难度不一样。从目前公开的资料来看，一般PDF文档的效果会更好一些，因为pdf文档的格式信息相对来说较为简洁，对大模型干扰少。但也有说.docx的效果更优的，因此实践中还是要根据场景去测试。文档命名：尽量控制在10字左右，涵义简洁明了，避免标题中出现无意义的数字、符号或缩写。文档语言：尽量统一为同一种。因为embedding模型对于中英文、繁简体的支持可能不一样，如果文档不做处理，引擎会把中英文切到一个chunk里面，向量化之后有一半可能是乱码，有一半是没有用的数据。文档内容：设置可清晰识别的一二级标题，对难以处理的图片、表格、公式、超链接、附件、架构图、代码等进行特殊处理。构建问答对：因为最终的交互是问答的形式，所以在构建知识库时，如果能基于用户可能的提问方式，构建问答对，作为知识库原始数据，一般能达到更好的效果，但构建问答对的过程需要耗费较多人力，还需要考虑运营成本。需要注意的是，对知识库的处理是一个case by case的事情，并不存在一个放之四海而皆准的公式，需要根据具体的场景和需求以及处理成本去做大量实践，才能找到最适合自己的。

检索增强生成 (RAG)

[title]检索增强生成(RAG)通用语言模型通过微调就可以完成几类常见任务，比如分析情绪和识别命名实体。这些任务不需要额外的背景知识就可以完成。要完成更复杂和知识密集型的任务，可以基于语言模型构建一个系统，访问外部知识源来做到。这样的实现与事实更加一性，生成的答案更可靠，还有助于缓解“幻觉”问题。Meta AI的研究人员引入了一种叫做[检索增强生成（Retrieval Augmented Generation，RAG）(opens in a new tab)](https://ai.facebook.com/blog/retrieval-augmented-generation-streamlining-the-creation-of-intelligent-natural-language-processing-models/)的方法来完成这类知识密集型的任务。RAG把一个信息检索组件和文本生成模型结合在一起。RAG可以微调，其内部知识的修改方式很高效，不需要对整个模型进行重新训练。RAG会接受输入并检索出一组相关/支撑的文档，并给出文档的来源（例如维基百科）。这些文档作为上下文和输入的原始提示词组合，送给文本生成器得到最终的输出。这样RAG更加适应事实会随时间变化的情况。这非常有用，因为LLM的参数化知识是静态的。RAG让语言模型不用重新训练就能够获取最新的信息，基于检索生成产生可靠的输出。Lewis等人（2021）提出一个通用的RAG微调方法。这种方法使用预训练的seq2seq作为参数记忆，用维基百科的密集向量索引作为非参数记忆（使通过神经网络预训练的检索器访问）。这种方法工作原理概况如下：图片援引自:[Lewis et el.(2021)(opens in a new tab)](https://arxiv.org/pdf/2005.11401.pdf)