知识库的商业化应用场景主要包括以下几个方面:
此外,在知识库的检索原理方面:
这个智能体是由1个工作流+6个数据库实现的。工作流的设计比较简单,一个input,对接知识库,然后搭载豆包function call大模型,最后是一个output。6个数据库分别是我的公众号发表过的文章+执业药师教材(做第一个知识库的时候没经验,其实应该分开成两个数据库)、执业医师讲义、药监局新药审评报告、中国医药企业融资动态、药物对外授权(BD)动态、全球药物销售额。工作流是非常简单的,相对有难度的是收集知识库的资料并根据清洗结果进行手动二次校对(需要一定专业知识)。也许有人要问,医药知识我直接问大模型不好吗?大模型的语料来源庞杂,广度一定是比智能体好很多的,但是在医疗这个严肃领域,对回答准确性的要求非常高。为了避免出现误导性的回答,我在提示词中约定了回答只能来自于知识库。也许有问题超出知识库范畴的情况,但还没发现智能体回答是医学上不严谨的现象。广or精准,在医疗领域一定是精准优先的。[heading2]商业化场景[content]基本可以理解为,这个智能体能替代大部分的传统医药数据库商业化场景。医药企业研发立项:每个医药研发项目在立项之前,都要整理作用机制、目标治疗疾病的竞争格局、主流的技术路径是什么、同技术路径其他公司研发的产品在临床试验阶段看到的安全性风险和有效性分别是怎样的,这些问题智能体都可以回答科研机构临床转化评估:大学等科研机构有将基础的医药研究课题转化为药物的孵化机制,关注的主要是科学家研究方向的临床转化潜力,这些问题智能体都可以回答投资机构评估标的公司:主要关注国外对标技术的发展情况、融资情况、临床转化的可靠性,这些问题智能体都可以回答
大语言模型:是一个学习过无数本书、拥有无穷智慧的人。他读过无数的书、看过无数的段子,因此对公共知识、学识技能、日常聊天十分擅长。然而,在工作场景下,只会聊天侃大山可不行,你想让他帮你干活。这个时候,就需要“提示词”出场了,提示词:是你告诉这个全知全能的人,他是一个什么样的角色、他要专注于哪些技能,让他能够按照你的想法,变成一个你需要的“员工”。知识库:相当于你给这个“聪明”员工的发放了一本工作手册。即使是看过再多的书、浏览过再多的文字,也不会准确的知道见到老板娘过来吃饭要打三折,张梦飞过去吃饭要打骨折。而知识库,就是把这些内容写在了工作手册上。让这个聪明的员工,见到有人来的时候,就翻一翻手册,然后再做出反应。我的设定:AI模型:这里使用的是阿里千问模型。提示词:这里设定的角色是“美嘉”,是按照美嘉的人设、背景和对话风格做的设定。知识库:这里放的是《爱情公寓》全季的剧情,让“美嘉”拥有了自己过往的“记忆”,知道自己做过什么、好朋友是谁等等。图中右侧是一个十分简单的问答,我问:“你是谁?你和子乔在台球厅吵架那次是为了什么吵架?”她的回复是:“我是陈美嘉,那次在台球厅和吕子乔吵架是因为他约会被人撞见,我讽刺他脸大影响信号,他还反击我。后来谈到过去的事情,我指责他忘恩负义,他就说我平。最后,我伤心地说要分手,因为他之前甩过我。”
1.文本预处理:2.这包括去除无关字符、标准化文本(例如将所有字符转换为小写)、分词等,以清洁和准备文本数据。3.嵌入表示:4.将预处理后的文本(词或短语)转换为向量。这通常通过使用预训练的嵌入模型来完成,如Word2Vec、GloVe、BERT等。这些模型将每个词或短语映射到一个高维空间中的一个点(即向量)。5.特征提取:6.对于整个问题句子,可能会应用进一步的特征提取技术,比如句子级别的嵌入,或使用深度学习模型(如BERT)直接提取整个句子的表示。这个表示能够捕捉句子的上下文信息,不仅仅是单个词。7.向量优化:8.在某些情况下,问题的向量表示可能会根据具体任务进行优化,例如通过调整模型参数来更好地与检索系统的其他部分协同工作。②、知识库检索阶段:此阶段,首先需要有一个知识库,那么知识库是如何完成制作,并被检索的呢?我们需要先了解一个概念,在大模型的检索中,并不是依靠传统的关键字去搜索。而是依靠问题在空间中的向量位置,去寻找距离这个向量最近的其他词句,然后完成检索。所以,要在向量中进行检索,我们的知识库其实也是被转化成了了一个巨大的向量库。1、文档向量化: