Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

中国的知识图谱发展历程

Answer

中国的知识图谱发展历程可以概括为以下几个阶段:

  1. 早期研究阶段:在20世纪70年代,专家系统作为人工智能的一个重要分支,利用知识和推理过程来解决特定问题。在这个阶段,研究者们主要关注图论和图算法的基本问题,如图的表示、图的遍历、图的匹配等。

  2. 知识库与推理机阶段:从20世纪80年代开始,研究者们开始构建知识库与推理机,这是早期版本的知识图谱的雏形。这些系统侧重于知识表示和知识推理,但受限于规模小和应用场景不明确,发展较为缓慢。

  3. 语义网和本体论阶段:21世纪初,语义网和本体论成为知识图谱发展的重要组成部分。语义网由万维网发明者Tim Berners-Lee提出,旨在通过结构化的三元组信息实现语义搜索。本体论的研究为知识图谱提供了宝贵的技术和方法。

  4. 大规模知识图谱阶段:2012年,谷歌发布了包含570亿实体的大规模知识图谱,这标志着知识图谱领域的一次重大突破。同时,深度学习技术的发展为知识图谱的构建和应用提供了新的技术支持。

  5. 深度学习时代的知识图谱:随着深度学习技术的兴起,知识图谱的研究和应用进入了新的阶段。研究者们开始探索如何将神经网络引入知识图谱的研究,以提高知识图谱补全和推理的能力。

  6. 认知图谱阶段:近年来,认知图谱的概念被提出,它依据人类认知的双加工理论,动态构建带有上下文信息的知识图谱并进行推理。认知图谱的提出旨在解决传统知识图谱在表示和推理方面的一些局限性。

  7. 产业化发展:随着数字经济的发展,知识图谱在中国的产业化进程加速,特别是在金融和公安等行业中得到了广泛应用。预计到2026年,中国知识图谱核心市场的规模将超过296亿元,2021-2026年的复合年增长率为22.5%。

  8. 行业应用与生态构建:知识图谱的应用逐渐深入到各个行业,同时产业生态也在逐渐构建,包括监管引导方、供给方、需求方、投资方、高校及科研院所等共同参与,推动产业生态的成长和壮大。

这些阶段反映了中国知识图谱从理论研究到技术实现,再到产业化应用的逐步发展过程。

Content generated by AI large model, please carefully verify (powered by aily)

References

知识图谱

知识图谱(Knowledge Graph,KG)是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。知识图谱于2012年5月17日被Google正式提出,其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。知识图谱可以将Web从网页链接转向概念链接,支持用户按照主题来检索,实现语义检索。

观点:LLM落地思考

而且还有一个更大的问题等待解决,就是LLM这种由数据驱动的概率模型,和由第一性原理建立的数理模型,这两者究竟哪一种才可以更好的模拟世界,以及两者能否有一种很好的融合方式来共同模拟世界。在当前这个时间点,讨论落地或许还稍显幼稚,毕竟AGI的逐步推进会附带将前面的落地方案步步推翻,不过这也算是技术发展的必经之路,从幼稚中逐步萌芽茁壮。下面会从三个方面进行一些应用的分析:自然语言、ToB、ToC1、自然语言首先从自然语言出发,毕竟LLM是语言模型,他带来的影响最直观能想到的就是对之前自然语言相关技术能力的提升。22年之前,国内自然语言的业务应用发展已经相对稳定,而发展较快的时期是16年智能音箱带来的NLP业务快速落地以及18年小红书、头条抖音带来的推广搜发展;NLP与知识图谱是主要的落地类型,NLG相对难以落地;20年后整个自然语言的应用进入较长时期的瓶颈期。在瓶颈期时,NLP和知识图谱的业务还是在不断的推进中,但是其落地的项目多为定制且低效。比如:

Others are asking
知识图谱
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎的能力,增强用户的搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱的关键技术包括: 1. 知识抽取: 实体抽取:通过命名实体识别从数据源中自动识别命名实体。 关系抽取:从数据源中提取实体之间的关联关系,形成网状知识结构。 属性抽取:从数据源中采集特定实体的属性信息。 2. 知识表示:包括属性图和三元组。 3. 知识融合: 实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。 知识加工:对知识统一管理,形成大规模的知识体系。 本体构建:以形式化方式明确定义概念之间的联系。 质量评估:计算知识的置信度,提高知识质量。 知识更新:不断迭代更新,扩展现有知识,增加新知识。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。 在国家人工智能产业综合标准化体系建设指南中,知识图谱标准规范了知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
2025-04-17
学习大模型请给我一张知识图谱
以下是为您提供的大模型知识图谱: 1. 非技术背景,一文读懂大模型 整体架构 基础层:为大模型提供硬件支撑,数据支持等,例如 A100、数据服务器等。 数据层:企业根据自身特性维护的垂域数据,分为静态的知识库和动态的三方数据集。 模型层:LLm 或多模态模型,LLm 即大语言模型,如 GPT,一般使用 transformer 算法实现;多模态模型包括文生图、图生图等,训练所用数据与 llm 不同,用的是图文或声音等多模态的数据集。 平台层:模型与应用间的平台部分,如大模型的评测体系,或者 langchain 平台等。 表现层:也就是应用层,用户实际看到的地方。 2. AI Agent 系列:Brain 模块探究 知识 内置知识 常识知识:包括日常生活中广泛认可的事实和逻辑规则,帮助智能体具备泛化能力。 专业知识:涉及深入特定领域的详细信息,如医学、法律、科技、艺术等领域的专有概念和操作方法。 语言知识:包括语法规则、句型结构、语境含义以及文化背景等,还涉及非文字部分如语调、停顿和强调等。 3. 大模型入门指南 通俗定义:输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。 类比学习过程 找学校:训练 LLM 需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练大模型。 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 找老师:用算法讲述“书本”中的内容,让大模型能够更好理解 Token 之间的关系。 就业指导:为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导。 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 Token:被视为模型处理和生成的文本单位,可代表单个字符、单词、子单词等,在将输入进行分词时,会对其进行数字化,形成词汇表。
2025-04-07
RAG和知识图谱的结合,需要如何实现
要实现 RAG 和知识图谱的结合,可以参考以下步骤: 1. 数据加载:根据数据源的类型选择合适的数据加载器,如对于网页数据源,可使用 WebBaseLoader 利用 urllib 和 BeautifulSoup 加载和解析网页,获取文档对象。 2. 文本分割:依据文本特点选用合适的文本分割器,将文档对象分割成较小的文档对象。例如,对于博客文章,可使用 RecursiveCharacterTextSplitter 递归地用常见分隔符分割文本,直至每个文档对象大小符合要求。 3. 嵌入与存储:根据嵌入质量和速度选择合适的文本嵌入器和向量存储器,将文档对象转换为嵌入并存储。比如,可使用 OpenAI 的嵌入模型和 Chroma 的向量存储器,即 OpenAIEmbeddings 和 ChromaVectorStore。 4. 创建检索器:使用向量存储器检索器,传递向量存储器对象和文本嵌入器对象作为参数,创建用于根据用户输入检索相关文档对象的检索器。 5. 创建聊天模型:根据模型性能和成本选择合适的聊天模型,如使用 OpenAI 的 GPT3 模型,即 OpenAIChatModel,根据用户输入和检索到的文档对象生成输出消息。 此外,通用语言模型通过微调能完成常见任务,而对于更复杂和知识密集型任务,可基于语言模型构建系统并访问外部知识源。Meta AI 研究人员引入的 RAG 方法把信息检索组件和文本生成模型结合,能接受输入并检索相关文档,组合上下文和原始提示词送给文本生成器得到输出,适应事实变化,无需重新训练模型就能获取最新信息并产生可靠输出。Lewis 等人(2021)提出通用的 RAG 微调方法,使用预训练的 seq2seq 作为参数记忆,用维基百科的密集向量索引作为非参数记忆。
2025-03-28
知识图谱
知识图谱是一种揭示实体之间关系的语义网络,能够对现实世界的事物及其相互关系进行形式化描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎能力,增强用户搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱的关键技术包括: 1. 知识抽取: 实体抽取:通过命名实体识别从数据源中自动识别命名实体。 关系抽取:从数据源中提取实体之间的关联关系,形成网状知识结构。 属性抽取:从数据源中采集特定实体的属性信息。 2. 知识表示:包括属性图、三元组等。 3. 知识融合: 实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。 知识加工:对知识统一管理,形成大规模知识体系。 本体构建:以形式化方式明确定义概念之间的联系。 质量评估:计算知识的置信度,提高知识质量。 知识更新:不断迭代更新,扩展现有知识,增加新知识。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。 在国家人工智能产业综合标准化体系建设指南中,知识图谱标准规范了知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
2025-03-21
知识图谱产品
知识图谱(Knowledge Graph,KG)是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。 知识图谱于 2012 年 5 月 17 日被 Google 正式提出,其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。知识图谱可以将 Web 从网页链接转向概念链接,支持用户按照主题来检索,实现语义检索。 知识图谱的关键技术包括: 1. 知识抽取:通过自动化的技术抽取出可用的知识单元,包括实体抽取(命名实体识别(Named Entity Recognition,NER)从数据源中自动识别命名实体)、关系抽取(从数据源中提取实体之间的关联关系,形成网状的知识结构)、属性抽取(从数据源中采集特定实体的属性信息)。 2. 知识表示:属性图、三元组。 3. 知识融合:在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等,达到数据、信息、方法、经验等知识的融合,形成高质量知识库。包括实体对齐(消除异构数据中的实体冲突、指向不明等不一致性问题)、知识加工(对知识统一管理,形成大规模的知识体系)、本体构建(以形式化方式明确定义概念之间的联系)、质量评估(计算知识的置信度,提高知识的质量)、知识更新(不断迭代更新,扩展现有知识,增加新的知识)。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。
2025-03-21
知识图谱
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎的能力,增强用户的搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱的关键技术包括: 1. 知识抽取: 实体抽取:通过命名实体识别从数据源中自动识别命名实体。 关系抽取:从数据源中提取实体之间的关联关系,形成网状知识结构。 属性抽取:从数据源中采集特定实体的属性信息。 2. 知识表示:包括属性图和三元组。 3. 知识融合: 实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。 知识加工:对知识统一管理,形成大规模的知识体系。 本体构建:以形式化方式明确定义概念之间的联系。 质量评估:计算知识的置信度,提高知识质量。 知识更新:不断迭代更新,扩展现有知识,增加新知识。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。 在国家人工智能产业综合标准化体系建设指南中,知识图谱标准规范了知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
2025-03-21
人工智能发展历程
人工智能的发展历程如下: 二十世纪中叶,人工智能领域开启,符号推理流行,出现专家系统,但因方法局限性和成本问题,20 世纪 70 年代出现“人工智能寒冬”。 随着时间推移,计算资源更便宜,数据更多,神经网络方法在计算机视觉、语音理解等领域展现出色性能,过去十年中,“人工智能”常被视为“神经网络”的同义词。 1943 年,心理学家麦卡洛克和数学家皮特斯提出机器的神经元模型,为神经网络奠定基础。 1950 年,图灵最早提出图灵测试作为判别机器是否具备智能的标准。 1956 年,在美国达特茅斯学院,马文·明斯基和约翰·麦凯西等人共同发起召开达特茅斯会议,“人工智能”一词被正式提出,并确立为一门学科。此后近 70 年,AI 发展起起落落。 AI 技术发展历程包括:早期阶段(1950s 1960s)的专家系统、博弈论、机器学习初步理论;知识驱动时期(1970s 1980s)的专家系统、知识表示、自动推理;统计学习时期(1990s 2000s)的机器学习算法(决策树、支持向量机、贝叶斯方法等);深度学习时期(2010s 至今)的深度神经网络、卷积神经网络、循环神经网络等。
2025-04-09
人工智能算法的发展历程是怎么样的?
人工智能算法的发展历程大致如下: 早期的国际象棋对弈程序以搜索为基础,发展出了阿尔法贝塔剪枝搜索算法。在对局开始时搜索空间巨大,随后通过学习人类棋手对局采用了基于案例的推理。现代能战胜人类棋手的对弈程序基于神经网络和强化学习,能从自身错误中学习,且学习速度快于人类。 创建“会说话的程序”的方法也在变化,早期如 Eliza 基于简单语法规则,现代助手如 Cortana、Siri 或谷歌助手是混合系统,使用神经网络转换语音并识别意图,未来有望出现完整基于神经网络的模型处理对话,如 GPT 和 TuringNLG 系列神经网络取得了巨大成功。 在机器学习方面,算法通过分析数据和推断模型建立参数,或与环境互动学习,人类可注释数据,环境可为模拟或真实世界。 深度学习是一种机器学习算法,由 Geoffrey Hinton 开创,1986 年发表开创性论文引入反向传播概念,2012 年 Hinton 和学生表明深度神经网络在图像识别方面击败先进系统。为使深度学习按预期工作,需要数据,如李飞飞创建的 ImageNet。 AI 技术发展历程包括早期阶段的专家系统、博弈论、机器学习初步理论;知识驱动时期的专家系统、知识表示、自动推理;统计学习时期的机器学习算法;深度学习时期的深度神经网络、卷积神经网络、循环神经网络等。 当前 AI 前沿技术点有大模型(如 GPT、PaLM 等)、多模态 AI、自监督学习、小样本学习、可解释 AI、机器人学、量子 AI、AI 芯片和硬件加速等。
2025-03-26
AI绘画的技术演进历程
AI 绘画的技术演进历程如下: 早期,AI 绘画成果较为简单和粗糙。但随着技术进步,尤其是深度学习算法如卷积神经网络等的应用,AI 绘画能够生成更加复杂、逼真和富有创意的图像。如今,它已涵盖各种风格和题材,从写实到抽象,从风景到人物,并在与人类艺术家的互动和融合中不断创新。 在艺术创作方面,AI 绘画利用机器学习和深度学习等技术,模拟人类创作过程,生成令人惊叹的作品,为艺术家提供新工具,为观众带来新体验。它打破了传统手工绘画技巧的局限,通过编程、算法和数据分析等开拓新创作领域,让缺乏绘画技巧的人也能参与艺术创作,使艺术更具民主化和包容性。 在应用场景上,AI 绘画在广告设计中可快速生成创意概念图,为策划提供灵感和初稿;在游戏开发中用于创建场景和角色形象,提高开发效率;在影视制作中辅助生成特效场景和概念设计;在建筑设计中帮助构想建筑外观和内部布局。 同时,AI 绘画对艺术界的影响是复杂且双面的。它既提供了新的创作工具和可能性,也引发了关于艺术本质、创造性、版权和伦理的重要讨论。艺术界的反馈使 AI 在绘画方面有显著进展,但其在表达情感和创造性意图方面仍存在局限性,也引发了艺术家对版权、原创性和伦理问题的担忧,带来了对文化创意领域从业者职业安全的焦虑以及“侵权”嫌疑的反对之声。尽管存在争议,AI 绘画仍为艺术创作提供了新的可能性,帮助艺术家探索新创意表达方式,提高制作效率,降低制作成本,促进艺术与观众的互动,提供个性化和互动的艺术体验。
2025-03-22
通义千问发展历程
通义千问是阿里云推出的大语言模型。于 2023 年 4 月 11 日在阿里云峰会上正式发布 1.0 版本。9 月 13 日,通义千问大模型首批通过备案。10 月 31 日,阿里云正式发布千亿级参数大模型通义千问 2.0,8 大行业模型同步上线。9 月,通义千问 2.5 系列全家桶开源。
2025-03-20
AI的发展历程
AI 的发展历程可以大致分为以下几个阶段: 1. 起步阶段(20 世纪 50 年代 60 年代):这一时期的研究重点是基于符号主义的推理和问题解决。 2. 低谷阶段(20 世纪 70 年代 80 年代):由于计算能力和数据的限制,AI 的发展遭遇了挫折。 3. 复苏阶段(20 世纪 80 年代 90 年代):专家系统等技术的出现推动了 AI 的发展。 4. 快速发展阶段(21 世纪初至今):随着大数据、深度学习算法和强大计算能力的出现,AI 在图像识别、语音识别、自然语言处理等领域取得了显著成就。
2025-03-19
deepseek公式的发展历程
DeepSeek 公式的发展历程如下: 2025 年 2 月 9 日,陈财猫分享提示词及小说创作心得,提到 DeepSeek 热度极高,微信指数达 10 亿多次,并准备先讲讲该模型的特点。 DeepSeek R1 不同于先前的普通模型,如 ChatGPT4、Claude 3.5 sonnet、豆包、通义等,它属于基于强化学习 RL 的推理模型,在回答用户问题前会先进行“自问自答”式的推理思考,以提升最终回答的质量。 早在 2024 年 5 月 DeepSeekV2 发布时,就以多头潜在注意力机制(MLA)架构的创新在硅谷引发了一场小范围的轰动。
2025-02-11
coze搭建智能体,用上传的文件和知识库的文件做对比,分析差异点。
以下是关于在 Coze 中搭建智能体的相关信息: 1. 证件照相关操作: 展示原图上传结果,基本脸型已换,生成效果与上传照片特征有关。 改背景可利用改图功能,一键改图效果更好,输出数据类型为图片。 豆包节点生成的是 URL 地址,与前者不同,在工作流使用有差异,可参考简单提示词。 介绍证件照工作流相关操作,包括通过提示词改背景颜色,设置输出方式为返回变量;讲解消耗 token 及保存结果相关问题;对按钮、表单添加事件并设置参数,限制上传文件数量;还涉及给表单和图片绑定数据,以及每次操作后刷新界面确保设置生效。 围绕操作讲解与优化展开,介绍 for meet 的设置,如表单事件操作、图片上传数量修改等,提及编程基础知识。还讲述成果图连接、绑定数据方法及注意事项。展示基本功能实现情况,分析换性别等问题成因,指出需在工作流优化提示词,也可尝试用视频模型解决,最后进入问答环节。 2. 多维表格的高速数据分析: 创建智能体,使用单 Agent 对话流模式。 编排对话流,创建新的对话流并关联智能体。 使用代码节点对两个插件获取的结果进行数据处理,注意代码节点输出的配置格式。 测试,找到一篇小红书笔记,试运行对话流,在对话窗口输入地址查看数据。 发布,选择多维表格,配置输出类型为文本,输入类型选择字段选择器,完善上架信息,可选择仅自己可用以加快审核。 3. 智能体与微信和微信群的连接: 创建知识库,可选择手动清洗数据提高准确性,包括在线知识库和本地文档。 在线知识库创建时,飞书在线文档中每个问题和答案以分割,可编辑修改和删除。 本地文档中注意拆分内容提高训练数据准确度,如将课程章节按固定方式人工标注和处理。 发布应用,确保在 Bot 商店中能够搜到。
2025-04-18
coze搭建知识库和上传文件做对比分析
以下是关于 Coze 搭建知识库和上传文件的对比分析: 创建文本型知识库: 自动分段与清洗:扣子可对上传的内容进行自动解析,支持复杂布局的文件处理,如识别段落、页眉/页脚/脚注等非重点内容,支持跨页跨栏的段落合并,支持解析表格中的图片和文档中的表格内容(目前仅支持带线框的表格)。操作步骤为在分段设置页面选择自动分段与清洗,然后依次单击下一步、确认,可查看分段效果,不满意可重新分段并使用自定义分段。 自定义:支持自定义分段规则、分段长度及预处理规则。操作时在分段设置页面选择自定义,然后依次设置分段规则和预处理规则,包括选择分段标识符、设置分段最大长度和文本预处理规则,最后单击下一步完成内容分段。 创建表格型知识库: 目前支持 4 种导入类型:本地文档、API、飞书、自定义。 本地文档:选择本地文档从本地文件中导入表格数据,目前支持上传 Excel 和 CSV 格式的文件,文件不得大于 20M,一次最多可上传 10 个文件,且表格内需要有列名和对应的数据。 API:参考特定操作从 API 返回数据中上传表格内容,包括选择 API、单击新增 API、输入 API URL 并选择数据更新频率,然后单击下一步。 飞书:参考特定操作从飞书表格中导入内容,包括选择飞书、在新增知识库页面单击授权并选择要导入数据的飞书账号、单击安装扣子应用(仅首次导入需授权和安装),然后选择要导入的表格并单击下一步。目前仅支持导入“我的空间”下的飞书文档,云文档的创建者必须是自己,暂不支持导入知识库和共享空间下的云文档。 上传文本内容: 在线数据:扣子支持自动抓取指定 URL 的内容,也支持手动采集指定页面上的内容,上传到数据库。 自动采集方式:适用于内容量大、需批量快速导入的场景。操作步骤为在文本格式页签下选择在线数据,然后依次单击下一步、自动采集、新增 URL,输入网站地址、选择是否定期同步及周期,最后单击确认,上传完成后单击下一步,系统会自动分片。 手动采集:适用于精准采集网页指定内容的场景。操作步骤为安装扩展程序,在文本格式页签下选择在线数据,然后依次单击下一步、手动采集、授予权限,输入采集内容的网址,标注提取内容,查看数据确认无误后完成并采集。
2025-04-18
知识库怎么构建
构建知识库的方法主要有以下几种: 1. 使用 Flowith 构建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,为其起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 等待 Flowith 对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 2. 使用 Dify 构建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:根据需求选择高质量模式、经济模式或 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 3. 本地部署大模型并搭建个人知识库(涉及 RAG 技术): 了解 RAG 技术:大模型训练数据有截止日期,RAG 可通过检索外部数据并在生成步骤中传递给 LLM 来解决依赖新数据的问题。 RAG 应用的 5 个过程: 文档加载:从多种来源加载文档,如 PDF、SQL 等。 文本分割:把文档切分为指定大小的块。 存储:包括将文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 检索:通过检索算法找到与输入问题相似的嵌入片。 输出:将问题和检索出的嵌入片提交给 LLM 生成答案。 文本加载器:将用户提供的文本加载到内存中以便后续处理。
2025-04-15
如何搭建知识库
搭建知识库的方法如下: 使用 flowith 搭建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,给知识库起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 Flowith 会对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 使用 Dify 搭建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:提供三种索引方式,根据需求选择,如高质量模式、经济模式和 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 使用 Coze 智能体搭建: 手动清洗数据: 在线知识库:点击创建知识库,创建 FAQ 知识库,选择飞书文档,输入区分问题和答案,可编辑修改和删除,添加 Bot 并在调试区测试效果。 本地文档:注意拆分内容,提高训练数据准确度,按章节进行人工标注和处理,然后创建自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能搜到。
2025-04-14
如何搭建自己的知识库
以下是搭建自己知识库的方法: 1. 选择“Manage Your Knowledge Base”,进入知识库管理页面。 2. 在页面左上角点击加号,添加新的知识库,并为其起一个易于分辨的名字。 3. 点击添加文件,建议使用 Markdown 格式的文件。 4. 等待 Flowith 对文件进行抽取等处理。 5. 处理完毕后,可在知识库管理页面测试检索,输入关键词过滤相关内容。 此外,搭建本地知识库还需了解 RAG 技术: 1. RAG 是一种当需要依靠不包含在大模型训练集中的数据时所采用的主要方法,即先检索外部数据,然后在生成步骤中将这些数据传递给 LLM。 2. 一个 RAG 的应用包括文档加载、文本分割、存储、检索和输出 5 个过程。 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器。 文本分割:把 Documents 切分为指定大小的块。 存储:将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 检索:通过某种检索算法找到与输入问题相似的嵌入片。 输出:把问题以及检索出来的嵌入片一起提交给 LLM,生成更合理的答案。 对于基于 GPT API 搭建定制化知识库,涉及给 GPT 输入定制化的知识。由于 GPT3.5 一次交互支持的 Token 有限,OpenAI 提供了 embedding API 解决方案。Embeddings 是一个浮点数字的向量,两个向量之间的距离衡量它们的关联性,小距离表示高关联度。在 OpenAI 词嵌入中,靠近向量的词语在语义上相似。文档上有创建 embeddings 的示例。
2025-04-14
分析AI颠覆性发展的生产策略调查的研究情况综述
以下是关于企业构建和购买生成式 AI 方式的 16 个变化的研究情况综述: 生成式人工智能在 2023 年迅速席卷消费市场,创下超过 10 亿美元的消费支出纪录。预计 2024 年企业领域的收入机会将数倍于消费市场。去年,企业对 genAI 的参与多局限于少数明显用例,且以“GPTwrapper(GPT 套壳)”产品作为新的 SKU 交付,一些人对其在企业中的扩展持怀疑态度。 然而,在过去几个月,a16Z 与数十家财富 500 强和顶级企业领导人交谈并对 70 多位进行调查后发现,过去 6 个月里,企业对生成式 AI 的资源配置和态度有显著变化。尽管仍有保留,但企业领导人几乎将预算增加两倍,更多应用部署在较小的开源模型上,并将更多业务从早期实验转移到生产环境中。 这对创始人是巨大机遇。a16Z 认为,为客户“以 AI 为中心的战略计划”构建解决方案,能预见痛点,从重服务模式转向构建可扩展产品的人工智能初创公司,将抓住新投资浪潮并占据重要市场份额。 任何时候,为企业构建和销售产品都需深入了解客户预算、关注点和路线图。a16Z 根据访谈结果总结了 16 个最为关键的考虑因素,涉及资源、模型和应用。
2025-04-15
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出10个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您生成的 10 个业务价值高、具备可行性的 AI 应用场景介绍: 1. 人才招聘与筛选 What:利用 AI 技术对求职者的简历进行自动筛选和分析,评估其与岗位的匹配度。 Why:节省 HR 大量的时间和精力,提高招聘效率和准确性。 How:通过自然语言处理和机器学习算法,训练模型识别关键信息和技能。 2. 员工培训与发展 What:根据员工的技能水平和职业发展目标,定制个性化的培训计划。 Why:提升员工的能力和绩效,增强员工对企业的忠诚度。 How:利用大数据分析员工的工作表现和学习需求,推荐相关课程和学习资源。 3. 薪酬福利管理 What:运用 AI 预测市场薪酬趋势,为企业制定合理的薪酬策略。 Why:保持企业薪酬的竞争力,吸引和留住优秀人才。 How:收集和分析行业薪酬数据,结合企业的财务状况和战略目标进行优化。 4. 员工绩效评估 What:借助 AI 实时监测员工的工作表现,提供客观的绩效评估。 Why:减少人为偏差,确保评估的公正性和准确性。 How:利用工作流程数据和行为分析模型进行评估。 5. 员工关系管理 What:通过 AI 分析员工的情绪和满意度,及时发现问题并解决。 Why:营造良好的工作氛围,提高员工的工作积极性和创造力。 How:使用情感分析技术处理员工的反馈和交流信息。 6. 组织架构优化 What:利用 AI 分析企业的业务流程和人员配置,提供组织架构调整建议。 Why:提高企业的运营效率和灵活性,适应市场变化。 How:基于数据分析和模拟优化算法进行评估和推荐。 7. 人力资源规划 What:根据企业的战略目标和业务发展预测人力资源需求。 Why:提前做好人才储备和招聘计划,保障企业的正常运营。 How:运用数据分析和预测模型进行规划。 8. 企业文化传播 What:使用 AI 生成个性化的企业文化宣传内容,提高传播效果。 Why:增强员工对企业文化的认同感和归属感。 How:利用自然语言生成技术和个性化推荐算法。 9. 智能客服 What:在 HR 服务中引入 AI 客服,解答员工常见问题。 Why:快速响应员工需求,提高服务质量。 How:训练智能客服模型,涵盖常见的 HR 问题和解决方案。 10. 人才库管理 What:利用 AI 对人才库进行分类和更新,提高人才库的利用效率。 Why:方便快速找到合适的人才,降低招聘成本。 How:运用数据挖掘和分类算法进行管理。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出3-5个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您提供的 3 个业务价值高、具备可行性的 AI 应用场景介绍: 场景一:AI 在企业招聘中的应用 What:利用 AI 技术进行简历筛选、人才匹配和面试评估。 Why:能够快速处理大量简历,提高招聘效率和准确性,节省人力和时间成本,同时更精准地找到符合岗位需求的人才。 How:通过引入相关的 AI 招聘软件,与企业现有的招聘系统集成,对简历进行关键词提取和分析,利用机器学习算法进行人才匹配,并通过视频面试中的语音和表情分析辅助评估候选人。 场景二:AI 助力个性化人力资源管理 What:根据员工的个人特点和工作表现,提供个性化的培训计划、职业发展建议和绩效评估。 Why:能够充分发挥员工的潜力,提高员工满意度和忠诚度,促进企业的长期发展。 How:收集员工的工作数据、学习记录和绩效表现等信息,运用 AI 算法进行分析和预测,为员工制定专属的发展方案,并通过移动应用或内部系统向员工推送相关建议和培训课程。 场景三:AI 打造无人值守的 HR 平台 What:实现 HR 业务的自动化处理,如员工请假审批、薪酬计算和福利发放等。 Why:减少人工操作的错误和繁琐流程,提高 HR 工作的效率和准确性,使 HR 人员能够专注于更有价值的战略工作。 How:整合企业内部的各种 HR 系统和数据,利用 RPA 和 AI 技术实现流程的自动化,同时建立监控和预警机制,确保平台的稳定运行。
2025-04-14
,AI agent 发展趋势,技术状态,商业模式
以下是关于 AI Agent 的发展趋势、技术状态和商业模式的相关信息: 发展趋势: 2024 年内,办公场景“AI 助手”开始有良好使用体验,实时生成的内容开始在社交媒体内容、广告中出现。 2025 2027 年,接近 AGI 的技术出现,人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 技术状态: 目标实现基于 ReAct、SFT、RAG、强化学习等实现自主规划能力的 AI Agent,构建具备认知、决策智能的 Agent 智能体框架。 专注文本/多模态大模型、AI Agent 技术创新与应用。 商业模式: 依据不同类型销售市场的特点,结合一站式 AI 搭建平台将销售部署的产品化和模版化,让企业更容易落地和应用 AI 能力。 销售智能体 Blurr.AI 占位交易环节,解决 2B 销售获客的痛点,且具有向前后端环节延展的势能。
2025-04-13
现在Ai已经发展到什么程度了
目前 AI 的发展已不再局限于单一的技术和应用范畴,而是融合了众多学科知识,并深入渗透到生活的各个层面,引发了一场生产力的革命。 有观点认为,AI 引领的是第四次工业革命的浪潮:继蒸汽机引发的机械化变革、电力驱动的电气化革新,以及电脑普及带来的信息化浪潮之后,AI 正推动着智能化时代的到来。 2025 开年 3 个月,AI 已经狂飙!R1 席卷全球,然后是 O3、Grok 3、Claude 3.7、GPT4.5 等,短短 3 个月内,AI 更新密集发布。然而很多人仍未察觉 AI 正在指数级加速,甚至抱怨 GPT4.5 表现不佳,但事实上,AI 发展已经是直线拉升状态,每天都在进步。 此外,Grok 语音模式已全面开放,支持 11 种模式(包括 2 种 18 禁),自带语音字幕,是学习英语的好工具,但目前仅支持英文。
2025-04-13