Chat with Wiki - 如何将知识库里的文件进行分类清晰数据，使其变得更加智能化

Answer

以下是关于如何将知识库里的文件进行分类清晰数据，使其变得更加智能化的方法：

在线知识库
- 点击创建知识库，创建一个画小二课程的 FAQ 知识库。
- 飞书在线文档中每个问题和答案以###分割，可点击编辑修改和删除。
- 点击添加 Bot，并在调试区测试效果。
本地文档
- 注意拆分内容，提高训练数据准确度，将海报的内容训练到知识库里面。
- 对于画小二这个课程，80 节课程分为 11 个章节，不能一股脑全部放进去训练。
- 首先将 11 章的大的章节名称内容放进来，章节内详细内容依次按固定方式进行人工标注和处理。
- 然后选择创建知识库自定义清洗数据。
发布应用
- 点击发布，确保在 Bot 商店中能够搜到。
飞书知识库
- 在飞书里面选择对应的文件夹，一次最多智能选择 20 个文件（若文件大于 20 个可多建几个知识库）。
- 可以选择自动进行数据清洗，数据清洗是把数据进行类结构化整理，内容中的图片资料也会保留。
- 测试对话，基本反馈正常，目前 coze 存在不稳定版本，需要不断调试完善。
Excel 知识库
- 可以增加其他形式的知识库。
- 上传表格的知识库不要过于复杂，不要有合并表格情况，同时系统不认不同的 Sheet。
- 数据处理完成会显示 100%进度，加工出来的数据，点击添加 Bot，就增加到知识库中，然后测试发布和返回。
网页知识库
- 有自动采集和手动采集两种方式，手动采集需要安装插件，操作稍微有点小复杂。
- 选择批量添加，写入画小二官网的地址，可根据需求添加自己的网站。
- 将网站所有的页面都扫描出来，点击确认，将全站数据解析并保存到知识库里面，按照默认自动清洗数据。
创建知识库并上传文本内容
- 本地文档：在文本格式页签下，选择本地文档，然后单击下一步。将要上传的文档拖拽到上传区，或单击上传区域选择要上传的文档。目前支持上传.txt、.pdf、.docx 格式的文件内容，每个文件不得大于 20M，一次最多可上传 10 个文件。当上传完成后单击下一步。选择内容分段方式，包括自动分段与清洗（系统会对上传的文件数据进行自动分段，并会按照系统默认的预处理规则处理数据）和自定义（手动设置分段规则和预处理规则，包括分段标识符、分段最大长度、文本预处理规则，如替换掉连续的空格、换行符和制表符，删除所有 URL 和电子邮箱地址）。单击下一步完成内容上传和分片。

Content generated by AI large model, please carefully verify (powered by aily)

References

本次创建知识库使用手动清洗数据，上节课程是自动清洗数据：[【智能体】用Coze在微信里搭建一个机器人，还能挖掘销售线索](https://a1i1hjmvcf0.feishu.cn/docx/JSdDd8ybLo7OHqxmePwcHlbLn3b?from=from_copylink),自动清洗数据会出现目前数据不准的情况，本节视频就尝试使用手动清洗数据，提高数据的准确性。[heading3]3.1在线知识库[content]点击创建知识库，创建一个画小二课程的FAQ知识库知识库的飞书在线文档，其中每个问题和答案以###分割，暂时不要问为什么。选择飞书文档选择自定义的自定义输入###然后他就将飞书的文档内容以###区分开来，这里可以点击编辑修改和删除。点击添加Bot添加好可以在调试区测试效果[heading3]3.2本地文档[content]本地word文件，这里要注意了~~~如何拆分内容，提高训练数据准确度，将海报的内容训练的知识库里面画小二这个课程80节课程，分为了11个章节，那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法，首先将11章的大的章节名称内容放进来，如下图所示。章节内详细内容格式如下如所示，如果你再分节的内容，依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据，这里不再赘述。[heading3]3.3发布应用[content]点击发布确保在Bot商店中能够搜到，如图所示可以搜索到画小二智能小助手，这个很重要，没有通过发布的获取不到API的。

【智能体】用Coze在微信里搭建一个机器人，还能挖掘销售线索

网址：Coze.cn2、创建[heading2]2、人设与回复逻辑设置[heading2]3、创建知识库[content]选择文本创建知识库选择飞书，因为我的很多资料都在飞书里面存着[heading3]3.1飞书知识库[content]在飞书里面选择对应的文件夹，一次做多智能选择20个文件（如果文件大于20个可以多建几个知识库）可以选择自动进行数据清洗，数据清洗不是要不数据清楚，而是把数据进行类结构化整理数据清洗进度内容中的图片资料也会保留测试对话，基本反馈正常，目前coze存在不稳定版本，需要不断调试完善。[heading3]3.2 Excel知识库[content]同时也可以增加其他形式的知识库上传表格的知识库不要过于复杂，不要有合并表格情况，同时系统不认不同的Sheet数据处理完成就显示100%进度加工出来的数据，点击添加Bot，就增加到知识库中测试发布测试返回[heading3]3.3网页知识库[content]选择有自动采集和手动采集两种方式，手动采集需要安装插件，操作稍微有点小复杂，等下节课程我们专门分享。这里我们选择批量添加，写入画小二官网的地址https://www.huaxiaoer.com.cn/这里你可以根据需求添加自己的网站然后就将网站所有的页面都扫描出来，点击确认。将全站数据解析并保存到知识库里面按照默认自动清洗数据数据清洗进度将网站所有数据清洗出来将网站添加到知识库里面

创建并使用知识库

|上传方式|操作步骤||-|-||本地文档|1.在文本格式页签下，选择本地文档，然后单击下一步。 2.将要上传的文档拖拽到上传区，或单击上传区域选择要上传的文档。 目前支持上传.txt,.pdf,.docx格式的文件内容。 每个文件不得大于20M。 一次最多可上传10个文件 1.当上传完成后单击下一步。 2.选择内容分段方式： 2.1.自动分段与清洗：系统会对上传的文件数据进行自动分段，并会按照系统默认的预处理规则处理数据。 2.2.自定义：手动设置分段规则和预处理规则。 分段标识符：选择符合实际所需的标识符。 分段最大长度：设置每个片段内的字符数上限。 文本预处理规则： 替换掉连续的空格、换行符和制表符 删除所有URL和电子邮箱地址 1.单击下一步完成内容上传和分片。|