ChatGPT 的知识库是通过大量语料数据进行训练得到的。为了使用 GPT 的语言能力来处理大量的领域知识,OpenAI 提供了 embedding API 解决方案。通过调用 embedding API,用户可以将大量的文本数据转换为向量表示,并将其存储在知识库中。当用户向 ChatGPT 发送问题时,ChatGPT 会将问题转换为向量表示,并在知识库中查找最相似的向量,以获取相关的回答。
此外,用户还可以通过本地部署大模型以及搭建个人知识库来更加灵活地掌握知识库。在使用 Open WebUI 时,用户可以选择聊天对话或 RAG 能力,让模型根据文档内容来回答问题。通过这种方式,用户可以构建自己的知识库,并让 ChatGPT 根据知识库中的内容来回答问题。
总的来说,ChatGPT 的知识库是通过大量语料数据进行训练得到的,同时用户也可以通过本地部署大模型以及搭建个人知识库来更加灵活地掌握知识库。
要搭建基于GPT API的定制化知识库,涉及到给GPT输入(投喂)定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互(输入和输出)只支持最高4096个Token,约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识,OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。
1.首先访问如下网址当你打开这个页面的时候,会让你登陆,这个时候我们随便使用一个邮箱注册一个账号即可1.和本地大模型进行对话登陆成功之后,如果你已经使用过ChatGPT等类似的大模型对话网站,我相信你对这个页面并不陌生。Open WebUI一般有两种使用方式第一种是聊天对话第二种是RAG能力,也就是可以让模型根据文档内容来回答问题。这种能力就是构建知识库的基础之一如果你的要求不高的话,我们已经搭建了一个本地大模型了,并且通过Web UI实现了和大模型进行对话的功能。相信通过这么一通折腾,你就理解了ChatGPT的信息流,至于为什么ChatGPT的访问速度比我们自己的要快,而且回答效果要好,有两个原因快:是因为GPT大模型部署的服务器配置高好:是因为GPT大模型的训练参数多,数据更优以及训练算法更好如果你想要更加灵活的掌握你的知识库,请接着往下看
我开始转而使用[perplexity.ai](https://www.perplexity.ai/)来搜索信息,到目前为止效果非常好!答案简洁、精准,还附有参考链接。如果它找不到答案,它会直接告诉你:“很少有资源能回答这个问题。”而不是胡乱猜测。不过它的缺点是,答案来源于网上的内容,这些内容的可靠性有时候是个问题。专业提示:用LLMs来解答一些关于流行文化的松散问题、联想或不确定的事物,是一种有趣、合法且风险较低的使用方式。比如它可以回答“90年代那首‘嘟嘟嘟嘟嘟嘟嘟’的歌是什么?”,即使它答不出来,这也是个无害而有趣的尝试。