Coze 对知识库的支持具有以下特点:
目前没有关于 Dify 对知识库支持情况的相关内容,无法直接将 Coze 和 Dify 进行对比。
这里我使用一款名为外贸大师产品的帮助文档进行演示。其帮助文档的地址为:[外贸大师使用秘籍·Yuque](https://www.yuque.com/charlotteyang/lbvyfu)为了简单,我选择其中一个文档来创建知识库:[购买后新人常见问题汇总·语雀](https://www.yuque.com/charlotteyang/lbvyfu/gvzs7qt313zg0svr)1.点击创建知识库1.从知识库中添加知识单元为了更好的检索效果,这个例子里使用Local doucuments的方式,并且上传的Markdown格式文档首先看下文档数据的格式:每个问题都是使用###作为开头(这是Markdown的语法)准备开始上传文件至此,一个完整的知识库就构建完成啦!接下来我们就可以去创建我们的产品资料问答机器人特别需要注意的是:文档的分片策略会严重影响查询的结果,这是当前RAG自身的方案原理导致的。基于Coze的知识库问答是典型的RAG方案,其重要一环就是文档切片(Segment)。然而,不管是单分片是800 token还是2000 token,都显著暴露了RAG方案的缺点:跨分片总结和推理能力弱。这是基于RAG方案自身原理导致的。文档有序性被打破。这是基于RAG方案自身原理导致的。表格解析失败。最后一点很诧异。虽然在业内把PDF解析为结构化文本,本就是一个难题。但是Coze对PDF的解析结果甚至不如直接用pypdf这个开源Python组件解析的效果好。说明Coze这个产品对细节的打磨还不够好。在这里我们不讨论如何组织文档形式,从而可以更好的分片。后面我会专门研究这块,并产出教程。
详细内容可至Coze官方手册了解:https://www.Coze.cn/docs/guides/knowledge[heading3]3.1知识库[content]Coze的知识库功能不仅支持上传和存储外部知识内容,还提供了多样化的检索能力。这一功能特别设计来解决大模型可能出现的幻觉问题和专业领域知识的不足,显著提升了大模型回复的准确性。Coze的知识库主要包括两大核心能力:一是能够存储和管理外部数据;二是增强检索能力。数据管理与存储Coze支持从多种数据源,如本地文档、在线数据、Notion、飞书文档等渠道上传文本和表格数据。上传后,系统会自动将知识内容切分成多个片段进行存储,并允许用户自定义内容分片规则,比如通过分段标识符或字符长度等方式进行内容分割。增强检索此外,Coze还提供了多种检索方式来对存储的内容片段进行高效检索,例如全文检索可以通过关键词快速找到相关的内容片段并召回。基于这些召回的内容片段,大模型将生成最终的回复内容。应用场景Coze支持上传文本内容及结构化表格数据,以适应各种使用场景。例如,在创建虚拟形象与用户交流时,你可以将相关语料保存在知识库中。后续Bot将通过向量匹配召回最相关语料,并模仿该虚拟形象的语言风格进行回答。在客服场景中,将用户常见问题和产品使用手册等信息上传至Coze知识库中,Bot可以利用这些信息精准地解答用户疑问。对于特定行业应用,如汽车领域,你可以创建包含各种车型详终参数的数据库,在用户查询特定车型信息时,Bot可通过召回相关记录进一步提供精确信息,如百公里油耗等详情。
这里我们先不讨论技术原理,我们可以通过“RAG”的名字来通俗易懂地解释一下检索增强生成R:Retrieval(检索)想象一下,当你在一个图书馆里寻找一本关于某个主题的书。图书馆员会先根据你的描述,从书架上找出一些相关的书籍和文章。这就是RAG中的“检索”部分。在这个步骤中,系统会从知识库或文档集合中找到与用户问题相关的内容。A:Augmented(增强)接下来,图书馆员会打开那些找出来的书籍和文章,挑选出最相关的段落和信息,并把它们汇总起来。这就是“增强”部分。这里,大模型会把检索到的信息进行筛选和优化,确保最相关和最有用的信息被选中。G:Generation(生成)最后,图书馆员会把汇总的信息组织成一个连贯的、易于理解的回答,用通俗易懂的语言告诉你。这就是“生成”部分。在这一阶段,大模型将整合的信息生成一个自然流畅的回答,像是一个专家在直接回答你的问题。综合解释RAG就像是一个超级智能的图书馆员:1.检索:它会从庞大的知识库中找到与你问题相关的信息。2.增强:它会筛选和优化这些信息,确保找到的是最相关的部分。3.生成:它会把这些信息整合起来,用通俗易懂的语言给出一个连贯的回答了解了RAG的基本概念,他的优缺点也就显而易见啦!优点:成本效益:相比训练和维护一个大型专有模型,RAG的实现成本更低灵活性:RAG可以利用多种数据源,包括结构化数据和非结构化数据。它能迅速适应不同领域和变化的数据可扩展性:可以随时增加或更新知识库中的内容,而不需要重新训练模型缺点:相比于专有模型的方案,他的回答准确性不够