Chat with Wiki - 我没有知识库，如何让AI就某一问题穷尽搜索

Answer

要让 AI 就某一问题进行穷尽搜索，一般会涉及以下步骤：

文档向量化：知识库中的文档需要被转换成向量形式，以便在数值级别上与问题向量进行比较。使用知识库工具上传文档时，会完成文档的向量化，这依靠 Embedding Model 实现。
知识库检索：
- 相似性计算：使用相似性度量方法（如余弦相似性）计算问题向量和各个文档向量之间的相似度，以找出与问题内容最接近的文档。
- 排序与选择：根据相似性得分对所有文档进行排序，通常会选择得分最高的几个文档，认为这些文档与问题最相关。
- 信息抽取：从选定的高相关性文档中抽取具体的信息片段或答案，可能涉及进一步的文本处理技术，如命名实体识别、关键短语提取等。
信息整合阶段：将检索到的全部信息连同用户问题和系统预设整合成一个全新的上下文环境，为生成回答提供基础。

此外，像生物进化中通过自然选择的方式，从特定规则开始逐步改变（可能随机），在每一步保留最有效的规则并丢弃其他，这种方法不是我们通常定义的“人工智能”（更像是“遗传算法”），但在高维规则空间中往往比低维规则空间效果更好，因为维度越多，陷入局部最小值的可能性越小。

同时，给 AI 配备随时更新的“活字典”即知识库是一个好方法。知识库就像 AI 随时可查阅的百科全书，当 AI 遇到不确定问题时，可从知识库中检索相关信息给出更准确回答。比如建立包含最新新闻、科技发展、法律法规等内容的知识库，或者利用整个互联网的实时数据作为知识库，通过搜索引擎获取最新信息。

Content generated by AI large model, please carefully verify (powered by aily)

References

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

知识库中的文档也需要被转换成向量形式。这使得文档内容能够在数值级别上与问题向量进行比较。在我们使用知识库工具时，上传文档就会帮助我们完成文档的向量化。这一步就是依靠Embedding Modle完成的。2、知识库检索：根据前一步输出的问题向量，检索器开始在一个庞大的向量空间中搜索与问题相关的内容（既向量距离最接近）。检索器根据问题的关键词和上下文，选出最相关的信息片段。在这一步，检索器从知识库里，检索到了一些和用户问题最相关的内容。检索器具体进行了什么操作呢？（了解即可）1.相似性计算：2.使用一种相似性度量方法（如余弦相似性）来计算问题向量和各个文档向量之间的相似度。这一步是为了找出与问题内容最为接近的文档。3.排序与选择：4.根据相似性得分，所有文档会被排序。系统通常会选择得分最高的几个文档，认为这些文档与问题最相关。5.信息抽取：6.从选定的高相关性文档中抽取具体的信息片段或答案。这可能涉及到进一步的文本处理技术，如命名实体识别、关键短语提取等。③、信息整合阶段：1、信息融合：这里将接收到上一步中检索到的全部信息。然后把这些信息连带用户问题和系统预设，被整合成一个全新的上下文环境，为生成回答提供基础。具体进行了什么操作呢？

沃尔夫勒姆：人工智能能解决科学问题吗？

OK,but can we do better than exhaustive search?And can we,for example,find a way to figure out what rules to explore without having to look at every rule?One approach is to do something like what happens in biological evolution by natural selection:start,say,from a particular rule,and then incrementally change it(perhaps at random),at every step keeping the rule or rules that do best,and discarding the others.好的，但是我们能做得比穷举搜索更好吗？例如，我们能否找到一种方法来找出要探索的规则，而不必查看每条规则？一种方法是像生物进化中通过自然选择发生的事情一样：从一个特定的规则开始，然后逐步改变它（可能是随机的），在每一步中保留最有效的一个或多个规则，并丢弃其他。This isn’t “AI” as we’ve operationally defined it here(it’s more like a “genetic algorithm”)—though it is a bit like the inner training loop of a neural net.But will it work?Well,that depends on the structure of the rule space —and,as one sees in machine learning —it tends to work better in higher-dimensional rule spaces than lower-dimensional ones.Because with more dimensions there’s less chance one will get “stuck in a local minimum”,unable to find one’s way out to a “better rule”.这不是我们在这里定义的“人工智能”（它更像是“遗传算法”）——尽管它有点像神经网络的内部训练循环。但这会起作用吗？嗯，这取决于规则空间的结构——正如人们在机器学习中看到的那样——它在高维规则空间中往往比在低维规则空间中工作得更好。因为维度越多，“陷入局部最小值”、无法找到“更好规则”的出路的可能性就越小。

胎教级教程：万字长文带你理解 RAG 全流程

活字典是针对知识库一个非常贴切的比喻还记得我们说过AI的知识会"过期"吗？解决这个问题的一个好方法就是给AI配备一个随时更新的"活字典"，我们称之为知识库。知识库就像是AI可以随时查阅的百科全书。当AI遇到不确定的问题时，它可以从知识库中检索相关信息，从而给出更新、更准确的回答。比如，我们可以建立一个包含最新新闻、科技发展、法律法规等内容的知识库。这样，即使AI的基础模型没有得到更新，它也能通过查阅知识库来回答有关最新事件的问题。比如很火的AI搜索，其实就是将整个互联网的实时数据作为知识库，每次被询问时都可以通过搜索引擎获取最新的信息。旁白：你很激动，当你听到关于对RAG的解释的时候，你觉得你找到了一条正确的路。RAG也许可以帮你解决每天回答那些重复问题的困扰，你怀着激动的心情开始了RAG学习之旅