Chat with Wiki - 如何搭建自己的知识库

Answer

以下是搭建自己知识库的方法：

选择“Manage Your Knowledge Base”，进入知识库管理页面。
在页面左上角点击加号，添加新的知识库，并为其起一个易于分辨的名字。
点击添加文件，建议使用 Markdown 格式的文件。
等待 Flowith 对文件进行抽取等处理。
处理完毕后，可在知识库管理页面测试检索，输入关键词过滤相关内容。

此外，搭建本地知识库还需了解 RAG 技术：

RAG 是一种当需要依靠不包含在大模型训练集中的数据时所采用的主要方法，即先检索外部数据，然后在生成步骤中将这些数据传递给 LLM。
一个 RAG 的应用包括文档加载、文本分割、存储、检索和输出 5 个过程。
- 文档加载：从多种不同来源加载文档，LangChain 提供了 100 多种不同的文档加载器。
- 文本分割：把 Documents 切分为指定大小的块。
- 存储：将切分好的文档块进行嵌入转换成向量的形式，并将 Embedding 后的向量数据存储到向量数据库。
- 检索：通过某种检索算法找到与输入问题相似的嵌入片。
- 输出：把问题以及检索出来的嵌入片一起提交给 LLM，生成更合理的答案。

对于基于 GPT API 搭建定制化知识库，涉及给 GPT 输入定制化的知识。由于 GPT-3.5 一次交互支持的 Token 有限，OpenAI 提供了 embedding API 解决方案。Embeddings 是一个浮点数字的向量，两个向量之间的距离衡量它们的关联性，小距离表示高关联度。在 OpenAI 词嵌入中，靠近向量的词语在语义上相似。文档上有创建 embeddings 的示例。

Content generated by AI large model, please carefully verify (powered by aily)

References

详解：flowith

来自flowith的朋友——玉树芝兰，王树义教授[heading4]构建[content]立即开始尝试构建知识库。方法是选择"Manage Your Knowledge Base"，进入知识库管理页面。然后选择左上角的加号，添加新的知识库。你可以随意给知识库起个名。但是强烈建议你起个自己后来能分辨的名字，不然使用的时候会不方便找寻。下面，你就可以点击添加文件。建议使用Markdown格式的文件。一般情况平时发布的文章，存储的都是这种格式。它其实就是带标记的纯文本，比较符合大语言模型的偏好。接着，你会看到Flowith开始忙活，逐个文件进行抽取（Extraction）等处理。你根本无需操心它是怎么做的。关上页面，等处理好了再说。过了一会儿，处理完毕。我点开其中某一个文件看看。处理过后它包含3个seeds，也就是因为长度关系，切分成了3个部分。你可以在知识库管理页面测试检索。例如我这里输入「卡片」，就可以过滤出与「卡片」直接相关的发布文章内容。这就是知识库的构建方法——新建、拖拽、等待、搞定。按照类似的逻辑，王教授分别构建了「《玉树芝兰》公众号文章」和「《玉树芝兰》知识星球文章」两个知识库。知识库构建好了，咱们尝试一下问答吧。

手把手教你本地部署大模型以及搭建个人知识库

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前，我们需要先对RAG有一个大概的了解。以下内容会有些干，我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的，那当我们需要依靠不包含在大模型训练集中的数据时，我们该怎么做呢？实现这一点的主要方法就是通过检索增强生成RAG（Retrieval Augmented Generation）。在这个过程中，首先检索外部数据，然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程：文档加载（Document Loading）：从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器，包括PDF在内的非结构化的数据、SQL在内的结构化的数据，以及Python、Java之类的代码等文本分割（Splitting）：文本分割器把Documents切分为指定大小的块，我把它们称为“文档块”或者“文档片”存储（Storage）：存储涉及到两个环节，分别是：将切分好的文档块进行嵌入（Embedding）转换成向量的形式将Embedding后的向量数据存储到向量数据库检索（Retrieval）：一旦数据进入向量数据库，我们仍然需要将数据检索出来，我们会通过某种检索算法找到与输入问题相似的嵌入片Output（输出）：把问题以及检索出来的嵌入片一起提交给LLM，LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading2]文本加载器（Document Loaders）[content]文本加载器就是将用户提供的文本加载到内存中，便于进行后续的处理

从零开始，用GPT打造个人知识库

要搭建基于GPT API的定制化知识库，涉及到给GPT输入（投喂）定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互（输入和输出）只支持最高4096个Token，约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识，OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。[heading2]理解embeddings[content]embeddings(直译为嵌入）是一个浮点数字的向量（列表）。两个向量之间的距离衡量它们的关联性。小距离表示高关联度，大距离表示低关联度。进一步解释：向量（列表）：向量是数学中表示大小和方向的一个量，通常用一串数字表示。在计算机科学和数据科学中，向量通常用列表（list）来表示。列表是一种数据结构，它包含一组有序的元素。例如，一个二维向量可以表示为[2,3]，这意味着沿着两个轴的分量分别为2和3。在这里，"list"是一种编程术语，意味着一系列有序的数据。向量之间的距离：向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离，最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减，然后取平方和，再开平方。例如，向量A=[1,2]和向量B=[4,6]之间的欧几里得距离为sqrt((4-1)^2+(6-2)^2)=5。较小距离意味着高相关性，因为向量间相似度高。在OpenAI词嵌入中，靠近向量的词语在语义上相似。例如，“猫”和“狗”距离近，它们都是宠物，与“汽车”距离远，相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口，将input语句，转化成下面这一串浮点数字。