要搭建自己的知识库,可以考虑以下几种方式:
要搭建基于GPT API的定制化知识库,涉及到给GPT输入(投喂)定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互(输入和输出)只支持最高4096个Token,约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识,OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。[heading2]理解embeddings[content]embeddings(直译为嵌入)是一个浮点数字的向量(列表)。两个向量之间的距离衡量它们的关联性。小距离表示高关联度,大距离表示低关联度。进一步解释:向量(列表):向量是数学中表示大小和方向的一个量,通常用一串数字表示。在计算机科学和数据科学中,向量通常用列表(list)来表示。列表是一种数据结构,它包含一组有序的元素。例如,一个二维向量可以表示为[2,3],这意味着沿着两个轴的分量分别为2和3。在这里,"list"是一种编程术语,意味着一系列有序的数据。向量之间的距离:向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离,最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减,然后取平方和,再开平方。例如,向量A=[1,2]和向量B=[4,6]之间的欧几里得距离为sqrt((4-1)^2+(6-2)^2)=5。较小距离意味着高相关性,因为向量间相似度高。在OpenAI词嵌入中,靠近向量的词语在语义上相似。例如,“猫”和“狗”距离近,它们都是宠物,与“汽车”距离远,相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口,将input语句,转化成下面这一串浮点数字。
对于传统意义上的知识库,我相信大家都不陌生。比如上面提到的[通往AGI之路](https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e)。再比如我使用的飞书搭建自己的通往超级个体之路的知识库,里面存放了我打造超级个体过程中的所有知识和分享知识库是我们个人或者企业的一些信息和知识的集合,一般有这么两类:个人搭建的某一领域知识库,比如AI知识库,里面存放了你日常收集了你日常整理的AI信息和知识企业搭建的产品资料知识库,里面存放了关于公司售卖的产品的详细资料这里多说一句,如果你想搭建自己的知识库,但是还没有行动,我建议你看下我的分享。两篇文档配套1个半小时的直播分享,让你轻松打造自己的知识管理体系[03|利用飞书搭建自己的知识库](https://axsppz4oyvj.feishu.cn/wiki/Tq5bw5HTeiqyeFkjs4YcCm8gnGh)[04|PARA方法论,打造持续升级的知识管理体系](https://axsppz4oyvj.feishu.cn/wiki/PQn5wJ6GMigwH1koj4jcnt4xn8q)我们日常对于传统知识库的使用很简单,当我们遇到问题时,我们可以通过知识库的目录找到对应的文章,通过阅读之前收集的信息或者写作的文章来为自己答疑解惑。但是这里面会有两个痛点随着知识库中信息的增多,如果分类不合理,我们很难再找到当初我们搜集的文章放在哪里问题的答案可能是一篇文章中的某一段落,但是我们每次都需要重新阅读这篇文章才能找到答案那AI时代来临后,是否可以改善这个痛点呢?
因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前,我们需要先对RAG有一个大概的了解。以下内容会有些干,我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程:文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等文本分割(Splitting):文本分割器把Documents切分为指定大小的块,我把它们称为“文档块”或者“文档片”存储(Storage):存储涉及到两个环节,分别是:将切分好的文档块进行嵌入(Embedding)转换成向量的形式将Embedding后的向量数据存储到向量数据库检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片Output(输出):把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading2]文本加载器(Document Loaders)[content]文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理