# 2405.16506_GRAG: Graph Retrieval-Augmented Generation * 首页: * PDF: * 引用: 197(2025-08-02) * 组织: Emory University * GitHub: ## 总结 * 主要贡献 * **高效的文本子图检索** * 提出了一种**分治策略**,能够在**线性时间内检索最优子图结构**,从而提升检索效率 * 通过“自我图”(ego-graph)的初步检索和软剪枝机制, * 高效近似地找到相关子图,避免了穷举子图的NP难问题 * **图上下文感知的生成机制** * 通过将文本图信息以**文本视图**和**图视图**两种互补的方式整合到LLMs中 * 使模型能更有效地理解并利用图的上下文信息 * 图信息的提示机制:设计了双通道提示方法,包括: * 硬提示(hard prompts):将子图结构转换为层次化文本描述,保留拓扑信息 * 软提示(soft prompts):通过图编码器提取图的拓扑和文本信息,以结构化形式传递给LLMs ## LLM 总结 文章《GRAG: Graph Retrieval-Augmented Generation》提出了一种新的信息检索与生成结合的方法——GRAG(图检索增强生成)。该方法将图结构数据引入传统的检索增强生成(RAG)框架中,以提升生成模型在处理复杂语义关系和多跳推理任务中的表现。 总结如下: 1. **背景与动机**:传统的RAG方法虽然在问答和内容生成方面表现出色,但在处理需要多跳推理或多实体关系理解的任务时存在局限。图结构能够更自然地表示实体之间的复杂关系,因此将其引入RAG框架具有重要意义。 2. **方法概述**: GRAG通过构建知识图谱(KG)作为外部信息源,利用图检索技术(如子图检索、路径检索)从知识图谱中提取相关信息,并将这些信息注入到生成模型中,从而增强生成内容的准确性和相关性。 3. **关键技术**: - **图检索模块**:用于从知识图谱中检索相关实体或路径。 - **图增强模块**:将检索到的图结构信息编码并整合到生成模型中,使其能够在生成过程中利用图中的结构化信息。 - **生成模块**:基于增强后的上下文生成高质量的回答或文本。 4. **实验与结果**: GRAG在多个问答和生成任务上进行了评估,结果显示其在多跳推理任务、事实性问答和复杂语义理解方面优于传统RAG方法和其他基线模型。实验还表明,图结构的引入显著提升了模型的上下文理解能力和生成质量。 5. **总结与展望**: GRAG为融合结构化知识与生成模型提供了一个新的视角,展示了图检索在增强生成任务中的潜力。未来的研究可以进一步探索不同图检索策略、动态知识图谱更新以及跨模态图结构的融合。 总之,GRAG通过引入图结构和图检索机制,有效提升了生成模型在处理复杂语义和多跳推理任务中的能力,为下一代知识增强的生成系统提供了新的思路和方法。 ## Abstract 该论文提出了一种名为 **GRAG(Graph Retrieval-Augmented Generation)** 的新方法,旨在解决传统 **RAG(Retrieval-Augmented Generation)** 在处理**网络化文档(如引用图、社交媒体、知识图谱等)**时的局限性。与RAG仅关注单一文档不同,GRAG能够有效检索和利用**文本子图结构**,并将其整合到**大型语言模型(LLMs)**中,从而提升生成质量。 论文的主要贡献包括: 1. **高效的文本子图检索**:提出了一种**分治策略**,能够在**线性时间内检索最优子图结构**,从而提升检索效率。 2. **图上下文感知的生成机制**:通过将文本图信息以**文本视图**和**图视图**两种互补的方式整合到LLMs中,使模型能更有效地理解并利用图的上下文信息。 3. **实验验证**:在多个图推理基准测试中,GRAG在需要**多跳推理的文本图场景**中显著优于当前最先进的RAG方法。 最后,论文提供了**数据集和代码**,便于后续研究和验证。 总结: GRAG通过引入图结构的检索与整合机制,有效克服了传统RAG在处理网络化文档时的不足,在图推理任务中展现出优越的性能。 ## 1 Introduction ![](https://img.zhaoweiguo.com/uPic/2025/08/GZRKja.png) Figure 1:GRAG retrieves textual subgraphs relevant to the query, rather than discrete entities as in RAG. Entities with similar topics tend to have connections, which improves the precision and robustness of the retrieval phase. 本文总结如下: **1. 研究背景** 大语言模型(LLMs)在多种推理任务中表现出色,包括基于图结构的数据处理。然而,由于训练数据的限制和缺乏实时知识,LLMs在事实准确性方面存在问题。为解决这一问题,研究者提出了**检索增强生成(RAG)**,通过引入外部信息来提高模型输出的准确性和相关性。但传统的RAG方法主要基于文本相似性,仅关注独立文档,忽视了现实世界中文档之间的网络关系(如知识图谱、论文引用关系、社交媒体互动等),而这些结构信息在信息检索和文本生成中具有重要作用。 **2. 提出问题** 现有RAG方法无法有效利用文档间的网络结构(即“文本图”)。当LLMs需要从图结构中检索信息并生成答案时,如何整合这些结构信息成为一个关键挑战,包括: - **检索阶段**:如何高效地检索与查询相关的文本子图? - **生成阶段**:如何将子图的文本与拓扑信息传递给LLMs,并生成高质量的回答? **3. 本文贡献** 为解决上述问题,作者提出了**图检索增强生成(GRAG)**,其主要贡献包括: - **问题定义与框架设计**:提出了GRAG的概念,并设计了一个计算框架,扩展了传统RAG方法,使其能够处理图结构数据。 - **高效子图检索方法**:提出了一种分而治之的策略,通过“自我图”(ego-graph)的初步检索和软剪枝机制,高效近似地找到相关子图,避免了穷举子图的NP难问题。 - **图信息的提示机制**:设计了双通道提示方法,包括: - **硬提示(hard prompts)**:将子图结构转换为层次化文本描述,保留拓扑信息; - **软提示(soft prompts)**:通过图编码器提取图的拓扑和文本信息,以结构化形式传递给LLMs。 - **实验验证**:在多跳图推理任务中,GRAG显著优于基于RAG的基线模型和微调后的LLMs,甚至在未微调的LLM上也表现更优。 **4. 实验结果** 实验结果验证了GRAG在图结构场景下的优越性能,特别是在需要多跳推理的任务中,GRAG能够更有效地利用图结构信息,提升回答的准确性和相关性。 **总结** 本文提出并验证了GRAG方法,通过结合图结构的拓扑关系与文本信息,有效提升了RAG在复杂图数据场景下的性能,为LLMs在图推理任务中的应用提供了新的思路和方法。 ## 2 Related Work 本论文的“相关工作”部分主要总结了三个方面:**Prompt Tuning**(提示调优)、**LLMs在图相关任务中的应用**,以及**图上的检索方法**。以下是各部分的总结: ### 2.1 Prompt Tuning 该部分介绍了与传统微调方法(如LoRA)不同的Prompt Tuning方法。Prompt Tuning通过修改输入提示来引导模型输出更准确的结果,而无需更新模型参数。代表性工作包括AutoPrompt和Prompt Tuning,其中后者提出学习“软提示”(soft prompts)作为嵌入向量,实现任务特定的模型适应。近年来,研究者进一步将Prompt Tuning扩展到多模态场景,探索如何通过调整提示嵌入,将大语言模型(LLMs)灵活应用于不同领域。 ### 2.2 LLMs在图相关任务中的应用 LLMs在图任务中主要发挥两个作用:一是利用其文本嵌入能力处理节点和边的属性,提升图分类和知识图谱构建的效果;二是借助其上下文推理能力,支持图推理和零样本图问答任务。然而,尽管LLMs在文本上表现优异,其对图结构的拓扑信息理解能力有限,因为文本数据缺乏显式的结构信息。为此,研究者提出了**图提示调优**(Graph Prompt Tuning)方法,帮助LLMs理解和处理图结构数据。 ### 2.3 图上的检索方法 该部分综述了图数据检索的相关研究。已有工作包括:检索相关节点并构建联合图进行问答、检索三元组以捕捉更复杂的图关系、通过路径推理简化查询答案的获取、利用社区发现算法划分图结构以提高检索效率,以及结合文本和拓扑信息来增强图检索效果。这些方法从不同角度提高了在图结构中检索相关信息的能力,为图问答和推理任务提供了有效支持。 **总结**:本章节系统回顾了Prompt Tuning在模型适应中的发展、LLMs在图任务中的应用潜力与限制,以及图检索任务中的多种方法,为后续研究提供了理论基础与技术参考。 ## 3 Problem Formalization 本节内容对**文本图**(Textual Graphs)和**文本子图**(Textual Subgraphs)进行了形式化定义,并提出了**基于图的检索增强生成**(Graph Retrieval Augmented Generation,GRAG)任务的数学模型。以下是主要内容的总结: 1. **文本图的定义**: - 文本图 $ G = (V, E, \{T_n\}_{n \in V}, \{T_e\}_{e \in E}) $,由节点集 $ V $ 和边集 $ E $ 构成,每个节点和边都带有自然语言属性(文本信息)$ T_n $ 和 $ T_e $。 2. **文本子图的定义**: - 文本子图是原始文本图的一个子结构,形式化定义为 - $ g = (V', E', \{T_n\}_{n \in V'}, \{T_e\}_{e \in E'}) $ - 其中 $ V' \subseteq V $,$ E' \subseteq E $,即子图的节点集和边集是原始图的幂集中的元素。 3. **GRAG 任务的目标**: - 将图的上下文信息集成到检索和生成两个阶段中,以提升生成结果与图中嵌入知识的相关性。 - 在给定查询 $ q $ 和文本图 $ G $ 的情况下,目标是检索出一个最优的子图 $ \hat{g} \in \mathcal{S}(G) $,使得基于该子图的语言模型输出更符合预期。 4. **GRAG 的概率模型**: - GRAG 的目标是通过最优子图 $ \hat{g} $ 来增强语言模型的生成能力。最终输出序列 $ Y $ 的概率分布为: - $p_\theta(Y \mid [q, G]) = \prod_{i=1}^{n} p_\theta(y_i \mid y_{