Chat with Wiki - 我想做一个可以智能检索的ai工具，用语音直接提出问题，然后工具根据原有知识库里面的资料，回答提出的问题

Answer

要做一个可以智能检索的 AI 工具，用语音直接提问并根据原有知识库回答，以下是一些相关信息：

关于冷启动和提升准确度：
- 对于一些如“你好”“你是谁”“10 的 9 次方等于多少”等有标准答案的数学、编程、生活常识问题，可不联网检索，直接用大模型训练好的知识库回答，这样能节省搜索成本，快速响应提问，提升搜索效率。
- 主要实现方案有两种：一是内置问题库，将常见无需联网的问题缓存，与用户提问做相似度匹配，命中关键词库则大模型直接回复，不联网检索，但存在枚举无法穷尽的问题；二是设置提示词，请求大模型判断是否需要联网，但大模型的识别准确度不够高。
- 意图识别的关键作用是对用户提问进行分类，如导航类（希望找到特定网站或网页）和信息查询类（希望找到问题答案或事物详细信息）。
关于检索原理：
- 文本预处理包括去除无关字符、标准化文本（如转换为小写）、分词等，以清洁和准备文本数据。
- 嵌入表示是将预处理后的文本（词或短语）转换为向量，通常通过使用预训练的嵌入模型如 Word2Vec、GloVe、BERT 等完成，将每个词或短语映射到高维空间中的一个点（即向量）。
- 对于整个问题句子，可能应用进一步的特征提取技术，如句子级别的嵌入，或使用深度学习模型（如 BERT）直接提取整个句子的表示，以捕捉句子的上下文信息。
- 在某些情况下，问题的向量表示可能会根据具体任务进行优化，例如通过调整模型参数来更好地与检索系统协同工作。
- 在知识库检索阶段，不是依靠传统关键字搜索，而是依靠问题在空间中的向量位置，寻找距离这个向量最近的其他词句来完成检索。

Content generated by AI large model, please carefully verify (powered by aily)

References

比如，用户输入：“你好”，“你是谁”，“10的9次方等于多少”之类的问题时，可以不联网检索参考信息，直接用大模型训练好的知识库进行回答。一些数学问题/编程问题/生活常识问题，有标准答案的，就不需要再联网检索。判断是否联网，可以节省一次搜索成本，也能更快速的响应用户提问，提升搜索效率。主要实现方案有两种：第一种是内置问题库，把无需联网的常见问题缓存起来，再跟用户提问做相似度匹配，如果用户提问命中关键词库，就直接大模型回复，不联网检索。第二种是设置提示词，请求大模型判断是否需要联网。第一种方案会有枚举无法穷尽的问题，第二种方案主要问题在于大模型的识别准确度不够高。意图识别另一个关键作用，是对用户提问进行分类，比如可以把用户的搜索意图分为：导航类：用户希望找到特定的网站或网页。例如：搜索“ThinkAny”，是为了打开ThinkAny官网；信息查询类：用户希望找到某个问题的答案或关于某个事物的详细信息。例如：搜索“什么是AI搜索引擎”，是为了了解这类产品或这个行业；

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

1.文本预处理：2.这包括去除无关字符、标准化文本（例如将所有字符转换为小写）、分词等，以清洁和准备文本数据。3.嵌入表示：4.将预处理后的文本（词或短语）转换为向量。这通常通过使用预训练的嵌入模型来完成，如Word2Vec、GloVe、BERT等。这些模型将每个词或短语映射到一个高维空间中的一个点（即向量）。5.特征提取：6.对于整个问题句子，可能会应用进一步的特征提取技术，比如句子级别的嵌入，或使用深度学习模型（如BERT）直接提取整个句子的表示。这个表示能够捕捉句子的上下文信息，不仅仅是单个词。7.向量优化：8.在某些情况下，问题的向量表示可能会根据具体任务进行优化，例如通过调整模型参数来更好地与检索系统的其他部分协同工作。②、知识库检索阶段：此阶段，首先需要有一个知识库，那么知识库是如何完成制作，并被检索的呢？我们需要先了解一个概念，在大模型的检索中，并不是依靠传统的关键字去搜索。而是依靠问题在空间中的向量位置，去寻找距离这个向量最近的其他词句，然后完成检索。