建立自己的知识库可以参考以下几种方法:
☝️拆解创作任务AI创作的一个痛点在于生成的内容太过笼统模糊,也就是AI味儿很重。回想你在工作中是不是也遇到过派活后当甩手掌柜的领导,他不会告诉你步骤、方法或者技巧,只会「很急,今天就要」。如果把AI看作是一名实习生,它可能也遇到了类似的情况。所以如果想让AI成为你的得力助手,你需要提供一定的指导,比如拆解复杂的任务到合适的颗粒度,提供一些方法论让它效仿,定义好输出的格式它好按部就班地执行。我做的第一件事是拆解自己创作一期「科幻预见未来」的步骤,如下图所示:其中需要AI生成的核心内容有电影中未来世界观的描述,构成世界观的驱动力/颠覆因素的分析,和延伸思考的问题。而生成这些内容的前提是准确选出匹配电影设定的驱动力/颠覆因素,也就是流程中的第3步。因此,我们可以视其为一个关键的任务节点,而第4到第7步是围绕第3步展开的主线任务。✌️建立定向知识库由于《梦想与颠覆》卡牌是本次创作的元知识,我们可以将它导入到flowith的知识花园中作为AI可以调用的知识库。将所有的驱动力和颠覆因素转化为文字上传后,打开智能拆分模式,AI就会自动分析内容并优化拆分的逻辑,最后形成一颗颗知识「种子」。后续在画布的侧边栏激活知识库后,AI将启用知识关联功能,根据创作场景自动匹配库内素材,让输出的内容更具针对性。另外你可以选择发布或分享你的知识库,让它成为别人的知识外挂,而在flowith的知识市场中你也可以「挪用」别人的秘籍,只不过受益者是你的AI Agent。
要搭建基于GPT API的定制化知识库,涉及到给GPT输入(投喂)定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互(输入和输出)只支持最高4096个Token,约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识,OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。[heading2]理解embeddings[content]embeddings(直译为嵌入)是一个浮点数字的向量(列表)。两个向量之间的距离衡量它们的关联性。小距离表示高关联度,大距离表示低关联度。进一步解释:向量(列表):向量是数学中表示大小和方向的一个量,通常用一串数字表示。在计算机科学和数据科学中,向量通常用列表(list)来表示。列表是一种数据结构,它包含一组有序的元素。例如,一个二维向量可以表示为[2,3],这意味着沿着两个轴的分量分别为2和3。在这里,"list"是一种编程术语,意味着一系列有序的数据。向量之间的距离:向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离,最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减,然后取平方和,再开平方。例如,向量A=[1,2]和向量B=[4,6]之间的欧几里得距离为sqrt((4-1)^2+(6-2)^2)=5。较小距离意味着高相关性,因为向量间相似度高。在OpenAI词嵌入中,靠近向量的词语在语义上相似。例如,“猫”和“狗”距离近,它们都是宠物,与“汽车”距离远,相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口,将input语句,转化成下面这一串浮点数字。
[heading5]3)创建【知识库】,整理“关键字”与“AI相关资料链接”的对应关系,并将信息存储起来。创建知识库路径:个人空间-知识库-创建知识库知识库文档类型支持:本地文档、在线数据、飞书文档、Notion等,本次使用【本地文档】按照操作指引上传文档、分段设置、确认数据处理。?小技巧:知识库好不好用,跟内容切分粒度有很大关系,我们可以在内容中加上一些特殊分割符,比如“###”,以便于自动切分数据。分段标识符号要选择“自定义”,内容填“###”。最终的知识库结果如下,同一颜色代表同一个数据段,如果内容有误需要编辑,可以点击具体内容,鼠标右键会看到“编辑”和“删除”按钮,可以编辑或删除。