Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

Graph RAG是什么

Answer

GraphRAG 是一种基于图的 RAG 工具,具有以下特点和优势:

  • 在社区摘要应用中,它在全面性和多样性上以 70 - 80%的胜率大幅领先于传统 RAG。
  • 能通过 LLM 从文档集合中自动提取丰富的知识图谱,助力处理私有或未知数据集的问答。
  • 可以通过检测图中的“社区”(即密集连接的节点群组),从高层主题到低层话题,层次化地划分数据的语义结构。
  • 利用 LLM 为这些社区生成摘要,提供对数据集的全面概览,无需事先设定问题,尤其适合回答全局性问题。

微软前几天发布的 GraphRAG 架构非常厉害,Neo4j 的 CTO 写了一篇详细的文章《GraphRAG 宣言:为 GenAI 增加知识》,通俗易懂地介绍了 GraphRAG 的原理、与传统 RAG 的区别、GraphRAG 的优势、知识图谱的创建和利用知识图谱工作。

Content generated by AI large model, please carefully verify (powered by aily)

References

AIGC Weekly #79

在社区摘要应用中,GraphRAG在全面性和多样性上以70-80%的胜率大幅领先于传统RAG。GraphRAG是一种基于图的RAG工具,通过LLM从文档集合中自动提取丰富的知识图谱,助力处理私有或未知数据集的问答。GraphRAG能通过检测图中的“社区”(即密集连接的节点群组),从高层主题到低层话题,层次化地划分数据的语义结构。它利用LLM为这些社区生成摘要,提供对数据集的全面概览,无需事先设定问题。这种方法尤其适合回答全局性问题。

AIGC Weekly #80

微软前几天发布的GraphRAG架构非常厉害,但是具体的原理和内容可能不太好理解。Neo4j的CTO写了一篇详细的文章《GraphRAG宣言:为GenAI增加知识》。通俗易懂的介绍了GraphRAG的原理、与传统RAG的区别、GraphRAG的优势、知识图谱的创建和利用知识图谱工作。

通过增强PDF结构识别,革新检索增强生成技术(RAG)

[title]通过增强PDF结构识别,革新检索增强生成技术(RAG)[heading1] 5 结论[content]参考文献[1]Alibaba Group Holding Limited.Fiscal year annual report 2023.https://static.alibabagroup.com/reports/fy2023/ar/ebook/en/index.html,2023.[2]Rongyu Cao,Hongwei Li,Ganbin Zhou,and Ping Luo.Towards document panoptic segmentation with pinpoint accuracy:Method and evaluation.In 16th International Conference on Document Analysis and Recognition,pages 3–18,2021.[3]https://pdflux.com/.[4]Daisho Microline Holdings Limited.Fiscal year annual report 2022.https://www1.hkexnews.hk/listedco/listconews/sehk/2022/0626/2022062600094.pdf,2022.[5]Peiyi Wang,Lei Li,Liang Chen,Dawei Zhu,Binghuai Lin,Yunbo Cao,Qi Liu,Tianyu Liu,and Zhifang Sui.Large language models are not fair evaluators,2023.[6]Tesla Inc.Model 3 owner’s manual.https://manual-directory.com/manual/2023-tesla-model-3-owners-manual/,2023.[7]Flávio Cunha,Fatih Karahan,and Ilton Soares.Returns to skills and the college premium.Journal of Money,Credit and Banking,43:39–86,2011.https://sci-hub.hkvisa.net/https://doi.org/10.1111/j.1538-4616.2011.00410.x.[8]Tom S.Vogl.Height,skills,and labor market outcomes in mexico.NBER Working Paper Series,2012.https://www.nber.org/system/files/working_papers/w18318/w18318.pdf.

Others are asking
知识库中的LangChain和LangGraph的内容有哪些 ?
以下是关于 LangChain 和 LangGraph 的相关内容: LangChain: LangChain 是一个由 Harrison Chase 开发的开源 Python 库,旨在支持使用大型语言模型(LLM)和外部资源(如数据源或语言处理系统)开发应用程序。 它提供了标准的接口,与其他工具集成,并为常见应用程序提供端到端链。 设计主张集中在模块化组件上,这些组件提供用于使用 LLM 的行为抽象,并为每个抽象提供实现的集合,从而允许开发人员构造新链或实现现成的链。 LangChain 和 RAG 的关系: LangChain 是一个用于构建高级语言模型应用程序的框架,提供了实现 RAG 所必需的工具和组件。 RAG 即检索增强生成,是一种结合了检索(检索外部知识库中相关信息)和生成(利用 LLM 生成文本)的技术。 LangChain 作为框架,与 RAG 的关系包括:是框架与技术的关系,允许通过模块化组件构建 RAG 应用程序,简化开发过程,提高性能,支持构建复杂的 RAG 应用。 关于大模型 RAG 应用中的 LangChain: 有从产品视角出发的分享,包括项目背景、初步体验和评测结果等。 预计会分成 3 篇分享,分别是 LangChain 框架初体验、调优思路分享、如何测评。
2025-04-12
详细讲解一下ragflow框架,同时对比一下ragflow与常规知识库有什么优势,在graphrag的实现方面ragflow又是怎么做的?
RAG(检索增强生成)是一种有效的解决方案,下面为您详细讲解: RAG 工作流程: 1. 检索(Retrieval):如同在图书馆中,系统会从知识库或文档集合中找出与用户问题相关的内容。 2. 增强(Augmented):对检索到的信息进行筛选和优化,挑出最相关和有用的部分。 3. 生成(Generation):将整合的信息生成自然流畅、易于理解的回答。 RAG 类似于一个超级智能的图书馆员,综合起来: 1. 检索:从庞大知识库中找到相关信息。 2. 增强:筛选优化确保找到最相关部分。 3. 生成:整合信息给出连贯回答。 RAG 的优势: 1. 成本效益:相比训练和维护大型专有模型,实现成本更低。 2. 灵活性:能利用多种数据源,包括结构化和非结构化数据,迅速适应不同领域和变化的数据。 3. 可扩展性:随时增加或更新知识库内容,无需重新训练模型。 RAG 与常规知识库的对比优势: 常规知识库可能存在知识更新不及时、数据来源单一等问题。而 RAG 能够从多种数据源获取信息,并且可以根据用户的实时需求进行检索和优化,生成更贴合需求的回答。 在 GraphRAG 的实现方面,目前提供的内容中未明确提及相关具体实现方式。 同时需要注意的是,RAG 也存在一些缺点,比如相比于专有模型的方案,回答准确性可能不够。
2025-03-28
langgraph教程
LangGraph 是一个用于低代码构建 LLM 应用的新库,具有以下特点和功能: 1. 提供了更多自定义和循环行为的可能性。 2. 提供了可视化工具,用于展示和控制语言代理的图,以及查看和分析语言代理的输入和输出。 3. 是 LangChain 的一个强大扩展,能支持更多 LLM 应用场景和需求,且是独立库,可与其他 Python 库和工具结合使用。 其详细介绍和使用方法可参考官方文档和教程。 LangChain 0.1.0 的发布是重要里程碑和新起点,团队未来计划包括: 1. 重写旧的链,使其符合 0.1.0 的架构和规范,并提供更多功能和特性。 2. 维护稳定分支 0.1.x,用于修复错误和优化性能,保证质量和稳定性。 3. 增加更多工具和功能,如更多 LLM 和 NLP 任务支持、更多输出解析和检索方法、更多代理技术以及更多 LangSmith 和 LangGraph 功能。 此外,还有关于利用 Langchain、Ollama、RSSHub 实现本地部署资讯问答机器人的内容,包括导入依赖库、从订阅源获取内容、为文档内容生成向量以及实现 RAG 等步骤。 在探索 LangGraph 构建多专家协作模型方面: 1. 定义图:从节点开始,预填充状态,构建定制工作流程,包含多个节点,如 enter_、助手、_safe_tools、_sensitive_tools、leave_skill 等,并逐一明确地定义如航班预订助手、租车助手、酒店预订助手、旅行预订助手和主助手等工作流程图。 2. 对话:在对话轮次列表上运行,减少确认。
2025-03-23
Langgraph
LangGraph 是一个用于低代码构建 LLM 应用的新库,具有以下特点和发展情况: 1. 提供了更多自定义和循环行为的可能性,还有可视化工具用于展示和控制语言代理的图,以及查看和分析输入输出。 2. 是 LangChain 的一个强大扩展,能支持更多 LLM 应用场景和需求,且是独立库,可与其他 Python 库和工具结合使用。 3. 随着其发布,应用开发者能在应用层随心搭建自己的多专家模型。 4. 在 LangChain v0.2 中,LangGraph 正在成为构建代理的推荐方式,增加了预构建的 LangGraph 对象,更容易定制和修改。 LangChain 团队未来计划包括: 1. 重写旧的链,使其符合 LangChain 0.1.0 的架构和规范,并提供更多功能和特性。 2. 维护稳定分支,用于修复错误和优化性能,保证质量和稳定性。 3. 增加更多工具和功能,如更多的 LLMs 和 NLP 任务支持、更多输出解析和检索方法、更多代理技术以及更多 LangSmith 和 LangGraph 的功能。 详细介绍和使用方法可参考 LangGraph 的官方文档和教程。
2025-03-23
langgraph
LangGraph 是一个用于低代码构建 LLM 应用的新库,具有以下特点和发展: 1. 提供了更多自定义和循环行为的可能性,还有可视化工具用于展示和控制语言代理的图,以及查看和分析输入输出。 2. 是 LangChain 的强大扩展,能支持更多 LLM 应用场景和需求,且是独立库,可与其他 Python 库和工具结合使用。 3. 随着发布,众多应用开发者能在应用层随心搭建自己的多专家模型。 4. 解决了 LangChain 中定制预构建链和代理内部结构困难的问题,增加了轻松定义循环和内置内存功能等重要组件。在 LangChain v0.2 中,LangGraph 正成为构建代理的推荐方式,有预构建的 LangGraph 对象,更易定制和修改。其详细介绍和使用方法可参考官方文档和教程。LangChain 团队未来计划包括重写旧链、维护稳定分支、增加更多工具和功能等。
2025-03-10
推荐 GraphRAG 的学习文档
以下是为您推荐的 GraphRAG 学习文档: 1. ,其中包含 GraphRAG 相关内容。 2. ,涉及 GraphRAG 内容。 3. ,有关于 GraphRAG 的介绍。 4. ,包含 GraphRAG 相关内容。 5. ,通俗易懂地介绍了 GraphRAG 的原理、与传统 RAG 的区别、GraphRAG 的优势、知识图谱的创建和利用知识图谱工作。
2024-12-24
rag
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构。 通用语言模型通过微调可完成常见任务,而更复杂和知识密集型任务可基于语言模型构建系统,访问外部知识源来完成,如 Meta AI 引入的 RAG 方法。RAG 把信息检索组件和文本生成模型结合,可微调,内部知识修改高效,无需重新训练整个模型。它会接受输入并检索相关支撑文档,给出来源,与原始提示词组合后送给文本生成器得到输出,能适应事实变化,让语言模型获取最新信息并生成可靠输出。 大语言模型(LLM)存在一些缺点,如无法记住所有知识尤其是长尾知识、知识易过时且不好更新、输出难以解释和验证、易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有诸多优点,如数据库存储和更新稳定且无学习风险、数据更新敏捷且不影响原有知识、降低大模型输出出错可能、便于管控用户隐私数据、降低大模型训练成本。 在 RAG 系统开发中存在 12 个主要难题,并已有相应的解决策略。
2025-04-15
rag介绍
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在内容黑盒、不可控以及受幻觉等问题干扰的情况。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,可解释且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。 一个 RAG 的应用可抽象为 5 个过程: 1. 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器,包括 PDF 在内的非结构化数据、SQL 在内的结构化数据,以及 Python、Java 之类的代码等。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2025-04-14
什么是RAG
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型存在一些缺点,如无法记住所有知识(尤其是长尾知识)、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,增删改查可解释,且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型本身的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。 一个 RAG 的应用可抽象为 5 个过程: 1. 文档加载:从多种不同来源加载文档。 2. 文本分割:把 Documents 切分为指定大小的块。 3. 存储:包括将切分好的文档块进行嵌入转换成向量的形式,以及将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2025-04-14
RAG对话 摘要总结 功能实现
LangChain 和 RAG 的结合具有以下优势: 1. 灵活性:可根据需求和数据源选择不同组件和参数定制 RAG 应用,也能使用自定义组件(需遵循接口规范)。 2. 可扩展性:能利用 LangChain 的云服务部署和运行,无需担忧资源和性能限制,还可借助分布式计算功能加速应用,发挥多个节点并行处理能力。 3. 可视化:通过 LangSmith 可视化工作流程,查看各步骤输入输出及组件性能状态,用于调试和优化,发现并解决潜在问题和瓶颈。 其应用场景多样,包括: 1. 专业问答:构建医疗、法律、金融等专业领域的问答应用,从专业数据源检索信息辅助大模型回答问题,如从医学文献中检索疾病诊治方案回答医疗问题。 2. 文本摘要:构建新闻或论文摘要应用,从多个数据源检索相关文本帮助大模型生成综合摘要,如从多个新闻网站检索同一事件报道生成全面摘要。 3. 文本生成:构建诗歌、故事生成等应用,从不同数据源检索灵感协助大模型生成更有趣和创意的文本,如从诗歌、歌词或小说中检索相关文本生成作品。 此外,还介绍了本地部署资讯问答机器人的实现方式,即基于用户问题从向量数据库检索相关段落并按阈值过滤,让模型参考上下文信息回答,还创建了网页 UI 并进行评测,对不同模型的测试表现进行了对比,得出 GPT4 表现最佳等结论,并总结了使用 Langchain 和 Ollama 技术栈在本地部署资讯问答机器人及相关要点,即上下文数据质量和大模型性能决定 RAG 系统性能上限。
2025-04-11
飞书智能伙伴创建平台 RAG实现
飞书智能伙伴创建平台(英文名:Aily)是飞书团队旗下的企业级 AI 应用开发平台,能提供简单、安全且高效的环境,帮助企业构建和发布 AI 应用,推动业务创新和效率提升,为企业探索大语言模型应用新篇章、迎接智能化未来提供理想选择。 在飞书智能伙伴创建平台上实现 RAG 相关应用有多种方式: 1. 利用飞书的知识库智能问答技术,引入 RAG 技术,通过机器人帮助用户快速检索内容。 2. 可以使用飞书的智能伙伴功能搭建 FAQ 机器人,了解智能助理的原理和使用方法。 3. 本地部署资讯问答机器人,如通过 Langchain + Ollama + RSSHub 实现 RAG,包括导入依赖库、从订阅源获取内容、为文档内容生成向量等步骤。例如使用 feedparse 解析 RSS 订阅源,ollama 跑大模型(使用前需确保服务开启并下载好模型),使用文本向量模型 bgem3(如从 https://huggingface.co/BAAI/bgem3 下载,假设放置在某个路径 /path/to/bgem3,通过函数利用 FAISS 创建高效向量存储)。 使用飞书智能伙伴创建平台的方式: 1. 在 WaytoAGI 飞书知识库首页找到加入飞书群的链接(二维码会定期更新,需在找到最新二维码),点击加入,直接@机器人。 2. 在 WaytoAGI.com 的网站首页,直接输入问题即可得到回答。 创建问答机器人的原因: 1. 知识库内容庞大,新用户难以快速找到所需内容。 2. 传统搜索基于关键词及相关性,存在局限性。 3. 需要用更先进的 RAG 技术解决问题。 4. 在群中提供快速检索信息的方式,使用更便捷。 2024 年 2 月 22 日的会议介绍了 WaytoAGI 社区的成立愿景和目标,以及其在飞书平台上的知识库和社区情况,讨论了相关技术和应用场景,并介绍了企业级 agent 方面的实践。
2025-04-08
RAG是什么
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在内容黑盒、不可控及受幻觉干扰等问题。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大,训练和运行成本高。 而 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,可解释且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景如知识问答系统,用户提出问题,RAG 模型从大规模的文档集合中检索相关的文档,然后生成回答。 一个 RAG 的应用可抽象为 5 个过程: 1. 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块。 3. 存储:包括将切分好的文档块进行嵌入转换成向量的形式,以及将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2025-04-03