Chat with Wiki - 如何生成企业自己的知识库

Answer

生成企业自己的知识库可以参考以下内容：

理论基础：
- 大模型训练数据有截止日期，当需要依靠不在训练集中的数据时，可通过检索增强生成 RAG（Retrieval Augmented Generation）实现。
- RAG 应用包括文档加载（从多种来源加载文档，如 PDF 等非结构化数据、SQL 等结构化数据及代码）、文本分割（把文档切分为指定大小的块）、存储（将切分好的文档块嵌入转换成向量形式并存储到向量数据库）、检索（通过检索算法找到与输入问题相似的嵌入片）、输出（把问题及检索出的嵌入片提交给 LLM 生成答案）。
使用 Coze 知识库：
- 海外官方文档：https://www.coze.com/docs/zh_cn/knowledge.html
- 国内官方文档：https://www.coze.cn/docs/guides/use_knowledge
Coze 实操 - 徒手捏 Bot：
- 搭建流程：
  - 用户输入问题。
  - 大模型通过知识库搜索答案。
  - 大模型根据知识库的内容生成答案。
  - 数据库将用户问题和答案进行存储。
  - 将答案展示给用户。
- 创建工作流：
  - Start 节点：默认节点，定义输入变量“question”，由 Bot 从外部获取信息传递过来。
  - 知识库节点：输入为用户的查询，输出为从知识库中查询出来的匹配片段。注意查询策略包括混合查询、语义查询和全文索引。
  - 变量节点：有设置变量给 Bot 和从 Bot 中获取变量的能力。

此外，您还可以参考以下作业：

5 月 7 号：创建 https://www.coze.com 账号、创建 https://www.coze.cn 账号、加入共学的 team（看备注）、有精力的话提前阅读胎教级教程：万字长文带你使用 Coze 打造企业级知识库、尝试创建自己的第一个 Bot 用来免费使用 GPT-4。
5 月 10 日罗文：认领一个插件制作插件说明，可参考coez 插件说明大全。

上述两个作业在 5 月 8 号分享结束之后就可以上手进行了，5 月 9 号会针对工作流和多 Agent 模式进行进一步的讲解。大家制作的 Bot 都可以在飞书群中进行投稿，然后会有专门的同学记录到 Bot 收集板。

Content generated by AI large model, please carefully verify (powered by aily)

References

大圣：胎教级教程：万字长文带你使用Coze打造企业级知识库

我们都知道大模型的训练数据是有截止日期的，那当我们需要依靠不包含在大模型训练集中的数据时，我们该怎么做呢？实现这一点的主要方法就是通过检索增强生成RAG（Retrieval Augmented Generation）。在这个过程中，首先检索外部数据，然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程：文档加载（Document Loading）：从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器，包括PDF在内的非结构化的数据、SQL在内的结构化的数据，以及Python、Java之类的代码等文本分割（Splitting）：文本分割器把Documents切分为指定大小的块，我把它们称为“文档块”或者“文档片”存储（Storage）：存储涉及到两个环节，分别是：将切分好的文档块进行嵌入（Embedding）转换成向量的形式将Embedding后的向量数据存储到向量数据库检索（Retrieval）：一旦数据进入向量数据库，我们仍然需要将数据检索出来，我们会通过某种检索算法找到与输入问题相似的嵌入片Output（输出）：把问题以及检索出来的嵌入片一起提交给LLM，LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading4]使用知识库[content]海外官方文档：https://www.coze.com/docs/zh_cn/knowledge.html国内官方文档：https://www.coze.cn/docs/guides/use_knowledge

大圣：胎教级教程：万字长文带你使用Coze打造企业级知识库

在创建工作流的时候，我们先思考下整个的流程1.用户输入问题2.大模型通过知识库搜索答案3.大模型根据知识库的内容生成答案4.数据库将用户问题和答案进行存储5.将答案展示给用户[heading5]创建工作流[content][heading5]Start节点[content]Start节点：每个工作流默认都有的节点，是工作流的开始这里我定义了一个输入变量：question，question会在启动工作流的时候由Bot从外部获取信息传递过来[heading5][heading5]知识库节点[content]知识库节点的输入和输出输入：Query，也就是用户的查询输出：一个数组，承载着从知识库中查询出来的匹配片段在Start节点后面接入了一个知识库节点，这个节点的目的是将用户的问题跟知识库进行匹配知识库中需要注意的几个概念Search strategy（查询策略）Hybrid search：混合查询，语义查询和全文索引的混合使用Semantic search：语义查询，理解知识库内容的语义，从而创造答案Full Text search：全文索引，不会去理解知识库的语义，而是直接使用字面意思进行匹配[heading5]变量节点[content]变量节点有两个能力：设置变量给Bot从Bot中获取变量我这里使用的能力是从Bot中获取user_language这个变量，目的是传给后面的大模型节点，控制其输出语言

Agent 搭建共学快闪 0507

|时间|作业|备注||-|-|-||5月7号|创建https://www.coze.com账号 创建https://www.coze.cn账号 加入共学的team（看第三列备注） 有精力的话：可以提前阅读：[胎教级教程：万字长文带你使用Coze打造企业级知识库](https://waytoagi.feishu.cn/wiki/CT3UwDM8OiVmOOkohPbcV3JCndb) 尝试创建自己的第一个Bot，用来免费使用GPT-4|海外版本 Click the link to join my team WaytoAGI on the Coze Bot Platform ??https://www.coze.com/invite/8UrPdX0vuusXq5H6dF4P 国内版本 coze.cn ??https://www.coze.cn/invite/EpD2Ud0bdPcvutscWStY||5月10日罗文|认领一个插件制作插件说明|[coez插件说明大全](https://yktdzwrsrx.feishu.cn/wiki/Bd86wtqlei5qI5kWb3Cc2oXnnpc?from=from_copylink)|PS：上述两个作业在5月8号分享结束之后就可以上手进行了，5月9号会针对工作流和多Agent模式进行进一步的讲解大家制作的Bot都可以在飞书群中进行投稿，然后会有专门的同学记录到Bot收集板