Chat with Wiki - 什么是知识库

Answer

知识库是指大量的知识分片，通过语义匹配为模型补充知识。例如，在 Coze 中，支持上传私有化数据（如本地文件、实时在线数据），通过向量搜索来检索最相关的内容，以便更精确地回答用户的问题。

我们都知道，大模型通常基于公开数据训练，不包含特定领域私有数据，如公司规章制度、项目信息等。但通过配置私有知识库，可让大模型依据提供的内容回答问题，比如将公司制度、项目纪要等制作成知识库，大模型就能据此回答相关问题。

在专家系统中，知识库代表某个问题领域的长期知识，它从人类专家那里人工提取，不会因外部咨询而改变，由于能让我们从一个问题状态前往另一个问题状态，也被称为动态知识。

知识库可以解决大模型幻觉、专业领域知识不足的问题，提升大模型回复的准确率。但使用知识库也存在一些限制，如在 Coze 中，单用户最多创建 1000 个知识库，文本类型知识库下最多支持添加 100 个文档，单用户每月最多新增 2GB 数据，累计上限是 10GB。

Content generated by AI large model, please carefully verify (powered by aily)

References

Coze - 打造 AI 私人提效助理实战知识库

创作者：@这显得我很呆昂@千钧一发之际Coze支持上传私有化数据（如本地文件、实时在线数据），通过向量搜索来检索最相关的内容，以便更精确地回答用户的问题。[heading2]什么是知识库？[content]我们都知道，大模型是基于公开的数据来训练的，不包含某个特定领域的私有数据，比如大模型肯定不知道你们公司的规章制度是什么、你在做项目的基本信息以及进度情况。但是通过配置私有知识库，就可以让大模型仅仅根据我们提供的内容来回答问题，比如我们把公司的制度或者项目的会议纪要、资料等信息，制作成知识库，大模型就可以根据知识库的内容，来回答我们关于公司制度或者是项目的相关问题。知识库可以解决大模型幻觉、专业领域知识不足的问题，提升大模型回复的准确率。[heading2]知识库Bot的实现原理[content]数据分段储存：由于大模型的上下文长度是有限制的，所以大模型首先会将我们上传的资料，根据特定的符号或者字符长度进行分段，比如一篇8000字的文档，他会按照每800字分成一个片段，一共分成10个片段，储存起来。增强检索：当用户输入一个问题，大模型就会根据相似度，检索出若干个最相关的数据片段，最后再根据这些内容，生成用户的答案，这个技术我们通常称为RAG（检索增强生成）。延伸阅读：[什么是RAG技术](https://icloudnative.io/posts/what-is-rag/)使用限制单用户最多创建1000个知识库。文本类型知识库下最多支持添加100个文档。单用户每月最多新增2 GB数据，累计上限是10 GB。

概述

扣子提供了以下几种方式来存储和记忆外部数据，这样Bot便可以使用这些外部数据来精准回复用户。知识库：是大量知识分片，通过语义匹配，给模型补充知识。以车型数据为例，每个知识库的分段中，保存了一种车型的基础数据。当用户问宝马X3的售价是多少？，能匹配到对应车型的分段，然后模型从中获取到售价信息。数据库：类似传统软件开发的数据库功能，以表格结构存储信息，通过NoSQL方式使用。目前提供的是关系型数据库，下面列举一些应用场景：AI便签：记录用户提交的便签，支持提交、查询操作，这些操作都是通过NL2SQL完成。单词本：记录用户背过哪些单词，其中哪些单词还没有记住等。

知识表示和专家系统

符号人工智能的早期成就之一是专家系统——为充当某个有限问题领域的专家而设计的计算机系统。它们基于从一个或多个人类专家那里提取的知识库，并包含一个推理引擎，在此基础上进行推理。专家系统就像人类的推理系统一样，包含短期记忆和长期记忆。同样，在以知识为基础的系统中，我们会区分以下几个部分：问题记忆（Problem memory）：包含与当前要解决的问题有关的知识，如病人的体温或血压、是否有炎症等。这种知识也被称为静态知识（static knowledge），因为它包含了快照信息，记录着我们在当前状态下对问题的了解——即所谓的问题状态（problem state）。知识库（Knowledge base）：代表某个问题领域的长期知识。它是从人类专家那里人工提取的，不会因外部的咨询而改变。由于它允许我们从一个问题状态前往另一个问题状态，因此也被称为动态知识（dynamic knowledge）。推理引擎（Inference engine）：协调在问题状态空间中搜索的整个过程，必要时向用户提问。它还负责找到适用于每个状态的正确规则。举例来说，下面这个专家系统是根据动物的物理特征来判断动物的：这种图称为AND-OR树，是一组产生式规则的图形表示。在从人类专家那里提取知识的早期阶段，绘制树形图非常有用。要在计算机中表示知识，使用规则更为方便：你可以注意到，规则左侧的每个条件和操作本质上都是对象-属性-值（OAV）三元组。工作记忆包含与当前要解决的问题相对应的OAV三元组。规则引擎会查找满足条件的规则，并应用这些规则，从而向工作记忆中添加另一个三元组。✅为你喜欢的主题写一个AND-OR树！