Chat with Wiki - 如何构建一个检查word文档格式的智能体

Answer

构建一个检查 word 文档格式的智能体可以参考以下步骤：

考虑到对照精读环节适合批处理形式，使用“分段输入正文”将正文分割，用 LLM 节点批处理每一段的对照精读，最终“拼合精读结果”以输出完整文本。
用户输入原文时，在 AI 对话窗口中通过开场白提示用户按格式输入文章，用“#”符标记标题句。
用 Python 脚本去掉标题句，并把剩下内容按照段落的换行逐段输出为 Array<String>格式。附上相关 Python 代码。
试运行以验证节点是否按预期运作，分次输出每一段原文。

此外，在创建智能体的知识库方面：

手动清洗数据可提高准确性，如创建画小二课程的 FAQ 知识库，飞书在线文档中每个问题和答案以“###”分割。
对于本地 word 文件，注意不能一股脑将所有内容放入训练，应先放入大的章节名称内容，再按固定方式人工标注和处理章节内详细内容。
完成后点击发布，确保在 Bot 商店中能搜到，否则无法获取 API。

Content generated by AI large model, please carefully verify (powered by aily)

References

一泽Eze:万字实践教程，全面入门 Coze 工作流｜用 Coze 打造 AI 精读专家智能体，复刻 10 万粉公众号的创作生产力

考虑到对照精读环节，本身就是逐段生成的，非常适合批处理的形式。所以需要用「分段输入正文」，把正文分割后，用LLM节点批处理每一段的对照精读，最终「拼合精读结果」，就能输出完整的文本结果。用户输入的原文，格式一般是：为了确保正确区分标题句和段落内容，我这边用了一个简易的方法——直接在AI对话窗口中，通过开场白提示用户按格式输入文章，用#符直接标记标题句：然后用Python脚本，去掉标题句，并把剩下内容按照段落的换行，逐段输出为Array<String>格式：附上Python代码：试运行后，就可以发现，节点已按照预期运作，分次输出了每一段原文。[heading4]附1：如何用Coze自动生成代码节点的代码？[content]这段代码也是用Coze代码节点自带IDE里的AI功能生成的，使用技巧如下（我试了很多次，请务必参考图中的小技巧，不然大概率失败）：代码生成后，除了直接在节点的试运行功能测试外，也可用「测试代码」功能，进行测试：

一泽Eze:万字实践教程，全面入门 Coze 工作流｜用 Coze 打造 AI 精读专家智能体，复刻 10 万粉公众号的创作生产力

【智能体】让Coze智能体机器人连上微信和微信群详细配置文档

本次创建知识库使用手动清洗数据，上节课程是自动清洗数据：[【智能体】用Coze在微信里搭建一个机器人，还能挖掘销售线索](https://a1i1hjmvcf0.feishu.cn/docx/JSdDd8ybLo7OHqxmePwcHlbLn3b?from=from_copylink),自动清洗数据会出现目前数据不准的情况，本节视频就尝试使用手动清洗数据，提高数据的准确性。[heading3]3.1在线知识库[content]点击创建知识库，创建一个画小二课程的FAQ知识库知识库的飞书在线文档，其中每个问题和答案以###分割，暂时不要问为什么。选择飞书文档选择自定义的自定义输入###然后他就将飞书的文档内容以###区分开来，这里可以点击编辑修改和删除。点击添加Bot添加好可以在调试区测试效果[heading3]3.2本地文档[content]本地word文件，这里要注意了~~~如何拆分内容，提高训练数据准确度，将海报的内容训练的知识库里面画小二这个课程80节课程，分为了11个章节，那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法，首先将11章的大的章节名称内容放进来，如下图所示。章节内详细内容格式如下如所示，如果你再分节的内容，依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据，这里不再赘述。[heading3]3.3发布应用[content]点击发布确保在Bot商店中能够搜到，如图所示可以搜索到画小二智能小助手，这个很重要，没有通过发布的获取不到API的。