知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎的能力,增强用户的搜索质量和体验,将 Web 从网页链接转向概念链接,支持用户按主题检索,实现语义检索。
知识图谱的关键技术包括:
1. 知识抽取:通过自动化技术抽取出可用的知识单元,具体包括:
实体抽取:命名实体识别(Named Entity Recognition,NER)从数据源中自动识别命名实体。
关系抽取:从数据源中提取实体之间的关联关系,形成网状的知识结构。
属性抽取:从数据源中采集特定实体的属性信息。
2. 知识表示:如属性图、三元组。
3. 知识融合:在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等,达到数据、信息、方法、经验等知识的融合,形成高质量知识库。具体包括:
实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。
知识加工:对知识统一管理,形成大规模的知识体系。
本体构建:以形式化方式明确定义概念之间的联系。
质量评估:计算知识的置信度,提高知识的质量。
知识更新:不断迭代更新,扩展现有知识,增加新的知识。
4. 知识推理:在已有的知识库基础上挖掘隐含的知识。
在企业中建构人工智能时,在搜索时会展示知识图谱。例如酒店知识图谱可能包含大量信息,让人们在查地图时能快速找到准确信息,还能列出相关人物及其关键信息,如生日、年纪等。
2024-08-11