Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何打造自己的知识库

Answer

打造自己的知识库可以参考以下方法:

  1. 使用 GPT 打造个人知识库
    • 利用 embeddings 技术:将文本转换成向量,节省空间,可理解为索引。把大文本拆分成小文本块,通过 embeddings API 转换为向量并保存。当用户提问时,将问题也转换为向量,与储存库中的向量比对,提取关联度高的文本块,与问题组合成新的 prompt 发送给 GPT API。
    • 理解 embeddings:embeddings 是浮点数字的向量,向量之间的距离衡量关联性,小距离表示高关联度。例如,“猫”和“狗”距离近,与“汽车”距离远。
    • 注意 GPT-3.5 一次交互支持的 Token 数量有限,OpenAI 提供了 embedding API 解决方案。
  2. 智慧课程培育建设中的方法
    • 学习有效地收集、整理和检索信息。
    • 进行知识管理,通过实际操作体验工具在教学准备和科研中的应用。
    • 实践演示,如直接让 Claude 生成可视化概念图。
    • 每天的具体操作,如早晚速读朋友圈文章、编写小代码和脚本、转换和呈现数据、从图像和图形中提取数据、翻译和改换风格、总结视频内容、作为私人导师探究问题等。
    • 分新闻、观点、访谈、论文翻译来进行提炼,使用通义听悟整理录音笔记等工具。
    • 利用各种相关网站和工具,如 https://tingwu.aliyun.com、https://ollama.com、https://snapbox.app、https://opencat.app、https://chathub.gg/、https://www.elmo.chat/、https://memo.ac/zh/ 等。
    • 下载视频或录制视频文件,如用 Downie(Mac)、IDM(Windows)、OBS 等工具。
Content generated by AI large model, please carefully verify (powered by aily)

References

从零开始,用GPT打造个人知识库

上面将文本转换成向量(一串数字)能大大节省空间,它不是压缩,可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本,可以先把它拆分成若干个小文本块(也叫chunk),通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方(向量储存库)中保存这些embeddings向量和文本块,作为问答的知识库。当用户提出一个问题时,该问题先通过embeddings API转换成问题向量,然后将这问题向量与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的prompt(问题/提示词),发送给GPT API。这样一来就不用一次会话中输入所有领域知识,而是输入了关联度最高的部分知识。一图胜千言,转一张原理图。再举一个极其简单的例子,比如有一篇万字长文,拆分成Chrunks包含:文本块1:本文作者:越山。xxxx。文本块2:公众号越山集的介绍:传播效率方法,分享AI应用,陪伴彼此在成长路上,共同前行。文本块3:《反脆弱》作者塔勒布xxxx。文本块4:“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容,周五发布。...文本块n如果提问是”此文作者是谁?“。可以直观的看出上面的文本块1跟这个问题的关联度最高,文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁?从以下信息中获取答案:本文作者:越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来,大语言大概率能回答上这个问题。

从零开始,用GPT打造个人知识库

要搭建基于GPT API的定制化知识库,涉及到给GPT输入(投喂)定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互(输入和输出)只支持最高4096个Token,约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识,OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。[heading2]理解embeddings[content]embeddings(直译为嵌入)是一个浮点数字的向量(列表)。两个向量之间的距离衡量它们的关联性。小距离表示高关联度,大距离表示低关联度。进一步解释:向量(列表):向量是数学中表示大小和方向的一个量,通常用一串数字表示。在计算机科学和数据科学中,向量通常用列表(list)来表示。列表是一种数据结构,它包含一组有序的元素。例如,一个二维向量可以表示为[2,3],这意味着沿着两个轴的分量分别为2和3。在这里,"list"是一种编程术语,意味着一系列有序的数据。向量之间的距离:向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离,最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减,然后取平方和,再开平方。例如,向量A=[1,2]和向量B=[4,6]之间的欧几里得距离为sqrt((4-1)^2+(6-2)^2)=5。较小距离意味着高相关性,因为向量间相似度高。在OpenAI词嵌入中,靠近向量的词语在语义上相似。例如,“猫”和“狗”距离近,它们都是宠物,与“汽车”距离远,相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口,将input语句,转化成下面这一串浮点数字。

张翼然:AI引领未来课堂的探索与实践.pdf

学习如何有效地收集、整理和检索信息,打造个人知识库。知识管理通过实际操作,体验这些工具在教学准备和科研中的应用。实践演示直接让Claude⽣成可视化概念图我每天如何使⽤AI•早晚速读朋友圈的⽂章•编写⼩代码,⼩脚本•转换数据并呈现•从图像和图形中提取数据•翻译、改换⻛格•总结视频内容•私⼈导师,探究问题分新闻、观点、访谈、论文翻译来进行提炼用通义听悟整理录音笔记https://tingwu.aliyun.com用React实现选中即解释本机跑大语言模型工具https://ollama.com选词翻译、解读、拓展……https://snapbox.app与各种AI机器人聊天https://opencat.app比较多个大语言模型的回答https://chathub.gg/https://www.elmo.chat/我定义的提示语,根据不同类型提取有⽤信息https://memo.ac/zh/第一步,⽤Downie下载视频,或者⽤OBS录制视频⽂件开源免费屏幕录制⼯具OBS,下载地址https://obsproject.com/Mac⽤Downie,Windows推荐IDM淘宝数码荔枝店购买⽤losslessCut快速切块

Others are asking
coze搭建智能体,用上传的文件和知识库的文件做对比,分析差异点。
以下是关于在 Coze 中搭建智能体的相关信息: 1. 证件照相关操作: 展示原图上传结果,基本脸型已换,生成效果与上传照片特征有关。 改背景可利用改图功能,一键改图效果更好,输出数据类型为图片。 豆包节点生成的是 URL 地址,与前者不同,在工作流使用有差异,可参考简单提示词。 介绍证件照工作流相关操作,包括通过提示词改背景颜色,设置输出方式为返回变量;讲解消耗 token 及保存结果相关问题;对按钮、表单添加事件并设置参数,限制上传文件数量;还涉及给表单和图片绑定数据,以及每次操作后刷新界面确保设置生效。 围绕操作讲解与优化展开,介绍 for meet 的设置,如表单事件操作、图片上传数量修改等,提及编程基础知识。还讲述成果图连接、绑定数据方法及注意事项。展示基本功能实现情况,分析换性别等问题成因,指出需在工作流优化提示词,也可尝试用视频模型解决,最后进入问答环节。 2. 多维表格的高速数据分析: 创建智能体,使用单 Agent 对话流模式。 编排对话流,创建新的对话流并关联智能体。 使用代码节点对两个插件获取的结果进行数据处理,注意代码节点输出的配置格式。 测试,找到一篇小红书笔记,试运行对话流,在对话窗口输入地址查看数据。 发布,选择多维表格,配置输出类型为文本,输入类型选择字段选择器,完善上架信息,可选择仅自己可用以加快审核。 3. 智能体与微信和微信群的连接: 创建知识库,可选择手动清洗数据提高准确性,包括在线知识库和本地文档。 在线知识库创建时,飞书在线文档中每个问题和答案以分割,可编辑修改和删除。 本地文档中注意拆分内容提高训练数据准确度,如将课程章节按固定方式人工标注和处理。 发布应用,确保在 Bot 商店中能够搜到。
2025-04-18
coze搭建知识库和上传文件做对比分析
以下是关于 Coze 搭建知识库和上传文件的对比分析: 创建文本型知识库: 自动分段与清洗:扣子可对上传的内容进行自动解析,支持复杂布局的文件处理,如识别段落、页眉/页脚/脚注等非重点内容,支持跨页跨栏的段落合并,支持解析表格中的图片和文档中的表格内容(目前仅支持带线框的表格)。操作步骤为在分段设置页面选择自动分段与清洗,然后依次单击下一步、确认,可查看分段效果,不满意可重新分段并使用自定义分段。 自定义:支持自定义分段规则、分段长度及预处理规则。操作时在分段设置页面选择自定义,然后依次设置分段规则和预处理规则,包括选择分段标识符、设置分段最大长度和文本预处理规则,最后单击下一步完成内容分段。 创建表格型知识库: 目前支持 4 种导入类型:本地文档、API、飞书、自定义。 本地文档:选择本地文档从本地文件中导入表格数据,目前支持上传 Excel 和 CSV 格式的文件,文件不得大于 20M,一次最多可上传 10 个文件,且表格内需要有列名和对应的数据。 API:参考特定操作从 API 返回数据中上传表格内容,包括选择 API、单击新增 API、输入 API URL 并选择数据更新频率,然后单击下一步。 飞书:参考特定操作从飞书表格中导入内容,包括选择飞书、在新增知识库页面单击授权并选择要导入数据的飞书账号、单击安装扣子应用(仅首次导入需授权和安装),然后选择要导入的表格并单击下一步。目前仅支持导入“我的空间”下的飞书文档,云文档的创建者必须是自己,暂不支持导入知识库和共享空间下的云文档。 上传文本内容: 在线数据:扣子支持自动抓取指定 URL 的内容,也支持手动采集指定页面上的内容,上传到数据库。 自动采集方式:适用于内容量大、需批量快速导入的场景。操作步骤为在文本格式页签下选择在线数据,然后依次单击下一步、自动采集、新增 URL,输入网站地址、选择是否定期同步及周期,最后单击确认,上传完成后单击下一步,系统会自动分片。 手动采集:适用于精准采集网页指定内容的场景。操作步骤为安装扩展程序,在文本格式页签下选择在线数据,然后依次单击下一步、手动采集、授予权限,输入采集内容的网址,标注提取内容,查看数据确认无误后完成并采集。
2025-04-18
知识库怎么构建
构建知识库的方法主要有以下几种: 1. 使用 Flowith 构建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,为其起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 等待 Flowith 对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 2. 使用 Dify 构建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:根据需求选择高质量模式、经济模式或 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 3. 本地部署大模型并搭建个人知识库(涉及 RAG 技术): 了解 RAG 技术:大模型训练数据有截止日期,RAG 可通过检索外部数据并在生成步骤中传递给 LLM 来解决依赖新数据的问题。 RAG 应用的 5 个过程: 文档加载:从多种来源加载文档,如 PDF、SQL 等。 文本分割:把文档切分为指定大小的块。 存储:包括将文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 检索:通过检索算法找到与输入问题相似的嵌入片。 输出:将问题和检索出的嵌入片提交给 LLM 生成答案。 文本加载器:将用户提供的文本加载到内存中以便后续处理。
2025-04-15
如何搭建知识库
搭建知识库的方法如下: 使用 flowith 搭建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,给知识库起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 Flowith 会对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 使用 Dify 搭建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:提供三种索引方式,根据需求选择,如高质量模式、经济模式和 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 使用 Coze 智能体搭建: 手动清洗数据: 在线知识库:点击创建知识库,创建 FAQ 知识库,选择飞书文档,输入区分问题和答案,可编辑修改和删除,添加 Bot 并在调试区测试效果。 本地文档:注意拆分内容,提高训练数据准确度,按章节进行人工标注和处理,然后创建自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能搜到。
2025-04-14
如何搭建自己的知识库
以下是搭建自己知识库的方法: 1. 选择“Manage Your Knowledge Base”,进入知识库管理页面。 2. 在页面左上角点击加号,添加新的知识库,并为其起一个易于分辨的名字。 3. 点击添加文件,建议使用 Markdown 格式的文件。 4. 等待 Flowith 对文件进行抽取等处理。 5. 处理完毕后,可在知识库管理页面测试检索,输入关键词过滤相关内容。 此外,搭建本地知识库还需了解 RAG 技术: 1. RAG 是一种当需要依靠不包含在大模型训练集中的数据时所采用的主要方法,即先检索外部数据,然后在生成步骤中将这些数据传递给 LLM。 2. 一个 RAG 的应用包括文档加载、文本分割、存储、检索和输出 5 个过程。 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器。 文本分割:把 Documents 切分为指定大小的块。 存储:将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 检索:通过某种检索算法找到与输入问题相似的嵌入片。 输出:把问题以及检索出来的嵌入片一起提交给 LLM,生成更合理的答案。 对于基于 GPT API 搭建定制化知识库,涉及给 GPT 输入定制化的知识。由于 GPT3.5 一次交互支持的 Token 有限,OpenAI 提供了 embedding API 解决方案。Embeddings 是一个浮点数字的向量,两个向量之间的距离衡量它们的关联性,小距离表示高关联度。在 OpenAI 词嵌入中,靠近向量的词语在语义上相似。文档上有创建 embeddings 的示例。
2025-04-14
我想做一个,基于我个人知识库的chatbot,以供我随时搜索和提问,且优先搜索知识库内的内容而非联网搜索,你有什么建议吗?
以下是为您提供的关于创建基于个人知识库的 chatbot 的建议: 1. 选择合适的平台和工具:例如可以考虑使用飞书智能伙伴创建平台(Aily)或扣子(https://www.coze.cn/home)等。 2. 数据分段储存:由于大模型的上下文长度有限制,需要将上传的资料根据特定符号或字符长度进行分段,如将 8000 字文档按每 800 字分成一个片段储存。 3. 增强检索:当用户输入问题,大模型会根据相似度检索出若干最相关的数据片段,再据此生成答案,这一技术称为 RAG(检索增强生成)。 4. 配置知识库: 在 Bot 内使用知识库: 登录相关平台。 在左侧导航栏的工作区区域,选择进入指定团队。 在 Bots 页面,选择指定 Bot 并进入 Bot 详情页。 在 Bot 编排页面的知识库区域,单击加号图标,添加指定的知识库。 (可选)添加知识库后,可以在自动调用下拉界面内,调整知识库的配置项,如最大召回数量、最小匹配度、调用方式等。 在工作流内使用 Knowledge 节点: 登录相关平台。 在左侧导航栏的工作区区域,选择进入指定团队。 在页面顶部进入工作流页面,并打开指定的工作流。 在左侧基础节点列表内,选择添加 Knowledge 节点。 5. 注意使用限制:单用户最多创建 1000 个知识库,文本类型知识库下最多支持添加 100 个文档,单用户每月最多新增 2GB 数据,累计上限是 10GB。 此外,知识库可以解决大模型幻觉、专业领域知识不足的问题,提升大模型回复的准确率。您可以将知识库直接与 Bot 进行关联用于响应用户回复,也可以在工作流中添加知识库节点,成为工作流中的一环。
2025-04-14
纯AI打造的儿童绘本动画剧集《森林童话会》即将上线
很抱歉,目前没有关于纯 AI 打造的儿童绘本动画剧集《森林童话会》的更多详细信息。
2025-04-15
如何打造个人知识库
以下是关于如何打造个人知识库的相关内容: 使用 GPT 打造个人知识库: 1. 利用 embeddings 技术:将文本转换成向量(一串数字),可理解为索引。把大文本拆分成若干小文本块(chunk),通过 embeddings API 转换为 embeddings 向量并保存,当用户提问时,将问题也转换为向量,比对查找距离最小的几个向量对应的文本块,与问题组合成新的 prompt 发送给 GPT API。 例如,对于一篇万字长文拆分成多个文本块,如“文本块 1:本文作者:越山。xxxx。”等,当提问“此文作者是谁?”,通过比较 embeddings 向量可提取关联度高的文本块。 2. 理解 embeddings:embeddings 是浮点数字的向量(列表),向量之间的距离衡量关联性,小距离表示高关联度。例如,“猫”和“狗”距离近,与“汽车”距离远。 3. 注意 GPT3.5 一次交互支持的 Token 数量有限,OpenAI 提供了 embedding API 解决方案。 此外,张翼然在“AI 引领未来课堂的探索与实践”中提到: 1. 学习有效收集、整理和检索信息来打造个人知识库。 2. 进行知识管理,通过实际操作体验工具在教学准备和科研中的应用。 3. 例如: 早晚速读朋友圈文章。 编写小代码、小脚本。 转换数据并呈现。 从图像和图形中提取数据。 翻译、改换风格。 总结视频内容。 私人导师,探究问题。 分新闻、观点、访谈、论文翻译来进行提炼。 用通义听悟整理录音笔记(https://tingwu.aliyun.com)。 用 React 实现选中即解释。 在本机跑大语言模型工具(https://ollama.com)。 选词翻译、解读、拓展(https://snapbox.app)。 与各种 AI 机器人聊天(https://opencat.app、https://chathub.gg/、https://www.elmo.chat/)。 用 Downie 下载视频或用 OBS 录制视频文件,开源免费屏幕录制工具 OBS 下载地址(https://obsproject.com/),Mac 用 Downie,Windows 推荐 IDM 淘宝数码荔枝店购买,用 losslessCut 快速切块。
2025-04-10
如何利用AI打造专属知识库
利用 AI 打造专属知识库可以通过以下步骤: 1. 拆解创作任务:将复杂的任务拆解到合适的颗粒度,为 AI 提供方法论和明确的输出格式。例如,拆解创作“科幻预见未来”的步骤,确定关键任务节点和围绕其展开的主线任务。 2. 建立定向知识库: 私人知识库中的内容一般包括日常从互联网收集的优质信息以及个人日常的思考和分享。 可以将相关内容导入到特定工具(如 flowith 的知识花园)中作为 AI 可调用的知识库。 对于导入的内容,可打开智能拆分模式,让 AI 自动分析优化拆分逻辑,形成知识“种子”。 3. 工作流中配置知识库: 添加知识库:可同时添加多个知识库。 参数设置: 搜索策略:包括语义检索(适合理解语义关联度和跨语言查询场景)、全文检索(适合特定名称、专有名词等场景)、混合检索(结合前两者优势)。 最大召回数量:选择返回给大模型使用的内容片段数量,数值越大返回越多。 最小匹配度:根据设置选取要返回的内容片段,过滤低相关度结果。需多轮测试找出最优值。 此外,基于私人知识库打造个人专属的 ChatGPT 常见有两种技术方案: 1. 训练专有大模型:效果虽好,但成本高,更新难度大,并非当下主流方案。 2. 利用 RAG(检索增强生成)技术。
2025-03-31
如何利用AI来打造自己的知识库?需要利用哪些软件?
以下是利用 AI 打造自己知识库的一些方法和可能用到的软件: 1. 飞书软件:例如“通往 AGI 之路”就是一个使用飞书搭建的 AI 知识库。您可以在飞书大群中与机器人对话获取资料。 2. Coze:在“大圣:胎教级教程:万字长文带你使用 Coze 打造企业级知识库”中有相关介绍,能帮助您理解 AI 时代的知识库,包括其概念、实现原理和能力边界等。 3. AnythingLLM:包含所有 Open WebUI 的能力,额外支持选择文本嵌入模型和向量数据库。安装地址为 https://useanything.com/download 。安装完成后可进行配置,包括选择大模型、文本嵌入模型和向量数据库。在 AnythingLLM 中可创建独有的 Workspace 来构建本地知识库,包括创建工作空间、上传文档并进行文本嵌入、选择对话模式(Chat 模式和 Query 模式),配置完成后可进行测试对话。 4. GPT:通过将文本拆分成小文本块并转换为 embeddings 向量,保存在向量储存库中作为问答的知识库。当用户提问时,将问题转换为向量并与储存库中的向量比对,提取关联度高的文本块与问题组合成新的 prompt 发送给 GPT API 。 希望以上信息对您有所帮助。
2025-03-17
打造企业AI应用场景
以下是关于打造企业 AI 应用场景的相关内容: 阿里云百炼: 阿里云的大模型服务平台百炼是一站式的大模型开发及应用构建平台。开发者和业务人员都能参与大模型应用的设计和构建。通过简单的界面操作,能在 5 分钟内开发出大模型应用,或在几小时内训练出专属模型,从而将更多精力专注于应用创新。 使用场景示例: 法律合规改写:招聘平台可通过百炼工作流封装多个法律合规 Agent 判断企业端要求是否符合劳动法等,并自动改写,减少人力审核需求。 关键信息抽取&打标签:法催机构可通过百炼工作流构建并串联相关 Agent,减少律师数据整理、分析和归类工作。 智能助理&客服:教育机构可通过百炼工作流搭建首页智能助手,通过意图分类能力分发用户 Query 并回答。 AI 决策相关: 在制定企业 AI 战略时,要在提高效率、促进创新的同时规避潜在风险。企业不需要短期内进行全面伦理审查,但可优化实际操作流程,满足市场需求并保持长远发展。 明确 AI 的适用范围:企业要针对自身业务需求明确使用边界。不是所有决策都需由 AI 完成,在复杂决策场景中,AI 适合辅助角色。常见适用场景包括数据密集型工作(如市场分析、客户画像、生产优化等)、重复性任务(自动化流程、预测维护等)、有限范围内的创新(在已有数据基础上提供初步建议)。企业管理层可引入内部评估机制,每季度评估 AI 在不同业务线中的表现,并设定不同使用权限。AI 可部署在低风险、可标准化任务上,涉及品牌形象、用户隐私、产品战略等决策应由人类主导。
2025-03-13
我想要打造一个AI手工耿的账号,模仿网络红人手工耿,但是是用AI去做一些有的没的 你这里有可供我参考的资料吗
很抱歉,目前没有关于打造 AI 手工耿账号的直接参考资料。但您可以从以下几个方面入手:首先,深入研究手工耿的风格和特点,包括他的创意、表现形式、语言风格等。其次,利用 AI 技术生成相关的创意内容时,注重独特性和趣味性,结合手工耿的“无用发明”风格。还可以通过 AI 绘画等手段为您的账号创作独特的视觉元素。在账号运营过程中,不断根据用户反馈优化 AI 生成的内容和表现方式。
2025-03-12