在 AI+知识库的商业化问答场景中:
模型方面,此处使用的是阿里千问模型。
上方页面左侧画红框的地方,是这个“问答机器人”的配置,右侧是与“机器人”的一轮对话。左侧有三处配置:AI模型提示词知识库。模型、提示词、知识库三者可以想象成:大语言模型:是一个学习过无数本书、拥有无穷智慧的人。他读过无数的书、看过无数的段子,因此对公共知识、学识技能、日常聊天十分擅长。然而,在工作场景下,只会聊天侃大山可不行,你想让他帮你干活。这个时候,就需要“提示词”出场了,提示词:是你告诉这个全知全能的人,他是一个什么样的角色、他要专注于哪些技能,让他能够按照你的想法,变成一个你需要的“员工”。知识库:相当于你给这个“聪明”员工的发放了一本工作手册。即使是看过再多的书、浏览过再多的文字,也不会准确的知道见到老板娘过来吃饭要打三折,张梦飞过去吃饭要打骨折。而知识库,就是把这些内容写在了工作手册上。让这个聪明的员工,见到有人来的时候,就翻一翻手册,然后再做出反应。我的设定:AI模型:这里使用的是阿里千问模型。
1.文本预处理:2.这包括去除无关字符、标准化文本(例如将所有字符转换为小写)、分词等,以清洁和准备文本数据。3.嵌入表示:4.将预处理后的文本(词或短语)转换为向量。这通常通过使用预训练的嵌入模型来完成,如Word2Vec、GloVe、BERT等。这些模型将每个词或短语映射到一个高维空间中的一个点(即向量)。5.特征提取:6.对于整个问题句子,可能会应用进一步的特征提取技术,比如句子级别的嵌入,或使用深度学习模型(如BERT)直接提取整个句子的表示。这个表示能够捕捉句子的上下文信息,不仅仅是单个词。7.向量优化:8.在某些情况下,问题的向量表示可能会根据具体任务进行优化,例如通过调整模型参数来更好地与检索系统的其他部分协同工作。②、知识库检索阶段:此阶段,首先需要有一个知识库,那么知识库是如何完成制作,并被检索的呢?我们需要先了解一个概念,在大模型的检索中,并不是依靠传统的关键字去搜索。而是依靠问题在空间中的向量位置,去寻找距离这个向量最近的其他词句,然后完成检索。
(因为我刷新后丢失了记录,改成说了一句:你好,所以下边的问题,变成了你好)5、此处将①②一起传递给了LLM(大语言模型),最终得到了③AI的回答。①System:我设置的Prompt(提示词)②Human:知识库检索的到的信息(下图两个<data>中间的内容就是知识库检索到的信息)。③AI:最终收到的回复信息。五、实操优化(挖坑)现在再来看这四步操作,是否对“知识库+LLM”的问答流程有更加清晰地认知呢?①、问题解析阶段②、知识库检索阶段③、信息整合阶段④、大模型生成回答下一篇我们就开始要从这些环节入手,手把手教程一起实操,对每一个环节进行逐项优化!