Chat with Wiki - 搭建个人知识库

Answer

搭建个人知识库主要包括以下几个方面：

RAG 技术：利用大模型的能力搭建知识库是 RAG 技术的应用。在进行本地知识库搭建实操前，需先了解 RAG。大模型训练数据有截止日期，当需要依靠不在训练集中的数据时，主要通过检索增强生成 RAG 实现。RAG 应用包括文档加载（从多种来源加载文档，如 PDF 等）、文本分割（把文档切分为指定大小的块）、存储（将切分好的文档块嵌入并转换为向量形式存储到向量数据库）、检索（通过检索算法找到与输入问题相似的嵌入片）、输出（把问题及检索出的嵌入片提交给 LLM 生成答案）。

基于 GPT API 搭建：涉及给 GPT 输入定制化知识，但 GPT-3.5 一次交互支持的 Token 有限。为处理大量领域知识，OpenAI 提供了 embedding API 解决方案。embeddings 是浮点数字的向量，向量间距离衡量关联性，小距离表示高关联度。

本地知识库进阶：若要更灵活掌控知识库，可使用额外软件 AnythingLLM，其包含 Open WebUI 的能力并额外支持选择文本嵌入模型和向量数据库。安装地址为 https://useanything.com/download ，安装完成后进入配置页面，主要分为三步：选择大模型、选择文本嵌入模型、选择向量数据库。AnythingLLM 中有 Workspace 概念，可创建独有 Workspace 与其他项目数据隔离，包括创建工作空间、上传文档并嵌入、选择对话模式（Chat 模式综合给出答案，Query 模式仅依靠文档数据），配置完成后可进行测试对话。

Content generated by AI large model, please carefully verify (powered by aily)

References

手把手教你本地部署大模型以及搭建个人知识库

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前，我们需要先对RAG有一个大概的了解。以下内容会有些干，我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的，那当我们需要依靠不包含在大模型训练集中的数据时，我们该怎么做呢？实现这一点的主要方法就是通过检索增强生成RAG（Retrieval Augmented Generation）。在这个过程中，首先检索外部数据，然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程：文档加载（Document Loading）：从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器，包括PDF在内的非结构化的数据、SQL在内的结构化的数据，以及Python、Java之类的代码等文本分割（Splitting）：文本分割器把Documents切分为指定大小的块，我把它们称为“文档块”或者“文档片”存储（Storage）：存储涉及到两个环节，分别是：将切分好的文档块进行嵌入（Embedding）转换成向量的形式将Embedding后的向量数据存储到向量数据库检索（Retrieval）：一旦数据进入向量数据库，我们仍然需要将数据检索出来，我们会通过某种检索算法找到与输入问题相似的嵌入片Output（输出）：把问题以及检索出来的嵌入片一起提交给LLM，LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading2]文本加载器（Document Loaders）[content]文本加载器就是将用户提供的文本加载到内存中，便于进行后续的处理

从零开始，用GPT打造个人知识库

要搭建基于GPT API的定制化知识库，涉及到给GPT输入（投喂）定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互（输入和输出）只支持最高4096个Token，约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识，OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。[heading2]理解embeddings[content]embeddings(直译为嵌入）是一个浮点数字的向量（列表）。两个向量之间的距离衡量它们的关联性。小距离表示高关联度，大距离表示低关联度。进一步解释：向量（列表）：向量是数学中表示大小和方向的一个量，通常用一串数字表示。在计算机科学和数据科学中，向量通常用列表（list）来表示。列表是一种数据结构，它包含一组有序的元素。例如，一个二维向量可以表示为[2,3]，这意味着沿着两个轴的分量分别为2和3。在这里，"list"是一种编程术语，意味着一系列有序的数据。向量之间的距离：向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离，最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减，然后取平方和，再开平方。例如，向量A=[1,2]和向量B=[4,6]之间的欧几里得距离为sqrt((4-1)^2+(6-2)^2)=5。较小距离意味着高相关性，因为向量间相似度高。在OpenAI词嵌入中，靠近向量的词语在语义上相似。例如，“猫”和“狗”距离近，它们都是宠物，与“汽车”距离远，相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口，将input语句，转化成下面这一串浮点数字。

手把手教你本地部署大模型以及搭建个人知识库

如果想要对知识库进行更加灵活的掌控，我们需要一个额外的软件：AnythingLLM。这个软件包含了所有Open WebUI的能力，并且额外支持了以下能力选择文本嵌入模型选择向量数据库[heading2]AnythingLLM安装和配置[content]安装地址：https://useanything.com/download当我们安装完成之后，会进入到其配置页面，这里面主要分为三步1.第一步：选择大模型1.第二步：选择文本嵌入模型1.第三步：选择向量数据库[heading2]构建本地知识库[content]AnythingLLM中有一个Workspace的概念，我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。1.首先创建一个工作空间1.上传文档并且在工作空间中进行文本嵌入1.选择对话模式AnythingLLM提供了两种对话模式：Chat模式：大模型会根据自己的训练数据和我们上传的文档数据综合给出答案Query模式：大模型仅仅会依靠文档中的数据给出答案1.测试对话当上述配置完成之后，我们就可以跟大模型进行对话了[heading1]六、写在最后[content]我非常推崇的一句话送给大家：看十遍不如实操一遍，实操十遍不如分享一遍如果你也对AI Agent技术感兴趣，可以联系我或者加我的免费知识星球（备注AGI知识库）