Chat with Wiki - 你有 AI+知识库应用的架构图吗

Answer

以下是 AI+知识库应用的架构图相关内容：

一、问题解析阶段

接收并预处理问题，通过嵌入模型（如 Word2Vec、GloVe、BERT）将问题文本转化为向量，确保问题向量能有效用于后续检索。

二、知识库检索阶段

知识库中的文档同样向量化后，比较问题向量与文档向量，选择最相关的信息片段并抽取传递给下一步骤。
文档向量化：要在向量中进行检索，知识库被转化成一个巨大的向量库。

三、信息整合阶段

接收检索到的信息，与上下文构建形成融合、全面的信息文本。
- 信息筛选与确认：对检索器提供的信息进行评估，筛选出最相关和最可信的内容，包括对信息的来源、时效性和相关性进行验证。
- 消除冗余：识别和去除多个文档或数据源中的重复信息。
- 关系映射：分析不同信息片段之间的逻辑和事实关系，如因果、对比、顺序等。
- 上下文构建：将筛选和结构化的信息组织成一个连贯的上下文环境，包括对信息进行排序、归类和整合。
- 语义融合：合并意义相近但表达不同的信息片段，以减少语义上的重复并增强信息的表达力。
- 预备生成阶段：整合好的上下文信息被编码成适合生成器处理的格式，如将文本转化为适合输入到生成模型的向量形式。

四、大模型生成回答阶段

整合后的信息被转化为向量并输入到 LLM（大语言模型），模型逐词构建回答，最终输出给用户。因为这个上下文包括了检索到的信息，大语言模型相当于同时拿到了问题和参考答案，通过 LLM 的全文理解，最后生成一个准确和连贯的答案。

五、其他预处理阶段

文本预处理：包括去除无关字符、标准化文本（例如将所有字符转换为小写）、分词等，以清洁和准备文本数据。
嵌入表示：将预处理后的文本（词或短语）转换为向量，通常通过使用预训练的嵌入模型来完成。
特征提取：对于整个问题句子，可能会应用进一步的特征提取技术，比如句子级别的嵌入，或使用深度学习模型（如 BERT）直接提取整个句子的表示。
向量优化：问题的向量表示可能会根据具体任务进行优化，例如通过调整模型参数来更好地与检索系统的其他部分协同工作。

Content generated by AI large model, please carefully verify (powered by aily)

References

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

1.问题解析阶段：2.接收并预处理问题，通过嵌入模型（如Word2Vec、GloVe、BERT）将问题文本转化为向量。这一步确保问题向量能有效用于后续检索。3.知识库检索阶段：4.知识库中的文档同样向量化后，比较问题向量与文档向量，选择最相关的信息片段。抽取相关信息传递给下一步骤5.信息整合阶段：6.接收检索到的信息，与上下文构建形成融合、全面的信息文本。整合信息准备进入生成阶段。7.大模型生成回答：整合后的信息被转化为向量并输入到LLM（大语言模型）。模型逐词构建回答，最终输出给用户。四、RAG实例看理论有点懵是吗？为了更理解，我们来一起看看实例。这是调试预览中的对话示例。在回复中，可以看到这里有写11条引用，3条上下文，我们具体来看下，有什么处理。一、知识库检索部分1、把输入的问题，通过Embedding做了向量化2、使用qwen语言模型把问题做了优化、添加了接近的检索词3、知识库向量检索，抽取条件包含相似度0.854、通过检索一共抽取出了11个内容块（chunk）二、大模型对话部分（因为我刷新后丢失了记录，改成说了一句：你好，所以下边的问题，变成了你好）

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

1.信息筛选与确认：2.首先，系统会对检索器提供的信息进行评估，筛选出最相关和最可信的内容。这通常涉及到对信息的来源、时效性和相关性进行验证。3.消除冗余：4.在多个文档或数据源中，可能会有重复的信息。系统需要识别和去除这些冗余内容，以防在生成回答时出现重复或相互矛盾的信息。5.关系映射：6.系统将分析不同信息片段之间的逻辑和事实关系，如因果、对比、顺序等。这有助于构建一个结构化的知识框架，使得信息在语义上更加连贯。7.上下文构建：8.将筛选和结构化的信息组织成一个连贯的上下文环境。这通常包括对信息进行排序、归类和整合，使其形成一个统一的叙述或解答框架。9.语义融合：10.在必要时，系统可能会进行语义融合，即合并意义相近但表达不同的信息片段，以减少语义上的重复并增强信息的表达力。11.预备生成阶段：12.最后，整合好的上下文信息被编码成适合生成器处理的格式，如将文本转化为适合输入到生成模型的向量形式。④、大模型生成回答1、生成器：最终全新的上下文被一起传递给大语言模型。随后，大语言模型（LLM）根据提供的信息来回答问题。因为这个上下文包括了检索到的信息，因此大语言模型相当于同时拿到了问题和参考答案，通过LLM的全文理解，最后生成一个准确和连贯的答案。

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

1.文本预处理：2.这包括去除无关字符、标准化文本（例如将所有字符转换为小写）、分词等，以清洁和准备文本数据。3.嵌入表示：4.将预处理后的文本（词或短语）转换为向量。这通常通过使用预训练的嵌入模型来完成，如Word2Vec、GloVe、BERT等。这些模型将每个词或短语映射到一个高维空间中的一个点（即向量）。5.特征提取：6.对于整个问题句子，可能会应用进一步的特征提取技术，比如句子级别的嵌入，或使用深度学习模型（如BERT）直接提取整个句子的表示。这个表示能够捕捉句子的上下文信息，不仅仅是单个词。7.向量优化：8.在某些情况下，问题的向量表示可能会根据具体任务进行优化，例如通过调整模型参数来更好地与检索系统的其他部分协同工作。②、知识库检索阶段：此阶段，首先需要有一个知识库，那么知识库是如何完成制作，并被检索的呢？我们需要先了解一个概念，在大模型的检索中，并不是依靠传统的关键字去搜索。而是依靠问题在空间中的向量位置，去寻找距离这个向量最近的其他词句，然后完成检索。所以，要在向量中进行检索，我们的知识库其实也是被转化成了了一个巨大的向量库。1、文档向量化：