以下是关于 Coze 搭建知识库和上传文件的对比分析:
创建文本型知识库:
创建表格型知识库:
上传文本内容:
扣子提供了自动和手动分段方式。|分段方式|说明||-|-||自动分段与清洗|扣子可对上传的内容进行自动解析,支持复杂布局的文件处理,例如:<br>可识别段落<br>可识别页眉/页脚/脚注等非重点内容<br>支持跨页跨栏的段落合并<br>支持解析表格中的图片信息<br>支持解析文档中的表格内容(目前,仅支持解析带线框的表格内容)<br>参考以下操作,使用自动分段:<br>1.在分段设置页面,选择自动分段与清洗,然后单击下一步。<br><br>1.单击确认。点击确认不影响数据处理,处理完毕后可进行引用。<br><br>1.查看分段效果。这里对文章仅分了一段,如果对效果不太满意,我们可以点击右上方的重新分段,使用自定义分段。<br>||自定义|支持自定义分段规则、分段长度及预处理规则。参考以下操作,通过自定义方式分段:<br>1.在分段设置页面,选择自定义,然后单击下一步。<br><br>1.设置分段规则和预处理规则。<br>分段标识符:选择符合实际所需的标识符。我们这里使用自定义,使用三个井号进行分段。<br><br><br>分段最大长度:设置每个片段内的字符数上限。<br>文本预处理规则:<br>替换掉连续的空格、换行符和制表符<br>删除所有URL和电子邮箱地址<br>1.单击下一步完成内容分段。<br>2.最后再看一下分段效果,这时候你会发现,这篇文档被分成了8段,每一个标题一段。<br>|
目前支持4种导入类型:本地文档、API、飞书、自定义。|导入方式|说明||-|-||本地文档|选择本地文档从本地文件中导入表格数据。<br><br>在上传表格数据时,请注意:<br>目前支持上传Excel和CSV格式的文件内容,且表格内需要有列名和对应的数据。<br>每个文件不得大于20M。<br>一次最多可上传10个文件。||API|参考以下操作,从API返回数据中上传表格内容:<br>1.选择API。<br>2.单击新增API。<br><br>1.输入API URL并选择数据的更新频率,然后单击下一步。<br>||飞书|参考以下操作,从飞书表格中导入内容。<br>1.选择飞书从飞书表格中导入内容。<br>2.在新增知识库页面,单击授权,选择要导入数据的飞书账号。<br>3.单击安装,在授权的飞书账号中安装扣子应用。<br>只有首次导入飞书数据时,才需要授权和安装。<br>1.选择要导入的表格,然后单击下一步。<br>目前仅支持导入我的空间下的飞书文档。<br>云文档的创建者必须是自己<br>暂不支持导入知识库和共享空间下的云文档。|
|上传方式|操作步骤||-|-||在线数据|扣子支持自动抓取指定URL的内容,也支持手动采集指定页面上的内容,上传到数据库。<br>自动采集方式:该方式适用于内容量大,需要批量快速导入的场景。<br>1.在文本格式页签下,选择在线数据,然后单击下一步。<br>2.单击自动采集。<br>3.单击新增URL。在弹出的页面完成以下操作:<br>3.1.输入要上传的网站地址。<br>3.2.选择是否需要定期同步网站内容,如果需要选择内容同步周期。<br>3.3.单击确认。<br>4.当上传完成后单击下一步。<br>系统会自动根据网站的内容进行内容分片。<br>手动采集:该方式适用于需要精准采集网页上指定内容的场景<br>1.安装扩展程序,详情请参考[安装Coze Scraper](https://www.coze.cn/docs/guides/scraper)。<br>2.在文本格式页签下,选择在线数据,然后单击下一步。<br>3.点击手动采集,然后在弹出的页面点击权限授予完成授权。<br>4.在弹出的页面输入要采集内容的网址,然后单击确认。<br>5.在弹出的页面上,点击页面下方文本标注按钮,开始标注要提取的内容,然后单击文本框上方的文本或链接按钮。<br>6.单击查看数据查看已采集的内容,确认无误后再点击完成并采集。<br><br>|