# 2402.07630_G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering * 首页: * PDF: * 引用: 246(2025-08-03) * 组织: * 1National University of Singapore * 2University of Notre Dame * 3Loyola Marymount University * 4New York University * 5Meta AI ## 总结 * 数据集GraphQA * 综合性且多样化的图问答(Graph Question Answering, GraphQA)基准 * 目标 * 用于评估模型在多种图结构上进行问答能力的基准测试 * 涵盖常识推理、场景图问答和基于知识图谱的问答等任务 * 子数据集 * ExplaGraphs * 2,766个图,平均节点数5.17,边数4.25 * 基于常识概念和关系,用于常识推理任务,评估指标为准确率(Accuracy)。 * SceneGraphs * 100,000个图,平均节点数19.13,边数68.44 * 包括图像中的对象、属性和关系,用于场景图问答,评估指标为准确率。 * WebQSP * 4,737个图,平均节点数1370.89,边数4252.37 * 基于Freebase实体和关系,用于多跳知识图谱问答,评估指标为Hit@1。 * G-Retriever架构 * 架构结合了图神经网络(GNN)、LLM和 RAG 的优势,旨在提升问答系统的准确性、可扩展性和可解释性 * 包含四个主要步骤: * 索引(Indexing):对图中的节点和边进行预处理和嵌入,便于后续检索; * 检索(Retrieval):基于查询从图中检索出最相关的节点和边; * 子图构建(Subgraph Construction):通过优化算法构建一个包含最多相关信息的连通子图; * 生成(Generation):使用图提示(graph prompt)和语言模型生成最终答案。 * 核心技术包括: 1. **图神经网络(GNNs)**:用于提取图数据中的节点和边的关系信息。 2. **大语言模型(LLMs)**(如 Transformer 架构模型):负责自然语言理解和生成。 3. **检索增强生成(RAG)**:从大规模知识库中检索相关信息,增强模型的回答准确性。 ## 示例讲解 ### **示例问题** **用户提问**: *“《盗梦空间》的导演是谁?他和《星际穿越》的导演是同一个人吗?”* ### **G-Retriever 的处理步骤** #### **1. 索引阶段(Indexing)** 假设我们有一个电影知识图谱,包含以下节点和边(简化版): ``` 节点(实体): - 盗梦空间(电影) - 克里斯托弗·诺兰(人物) - 星际穿越(电影) 边(关系): - 盗梦空间 --导演--> 克里斯托弗·诺兰 - 星际穿越 --导演--> 克里斯托弗·诺兰 ``` - G-Retriever 会使用预训练模型(如 Sentence-BERT)为每个节点和关系生成**嵌入向量**(即数值表示),并存储在图数据库中。 #### **2. 检索阶段(Retrieval)** - 对用户提问编码:将问题“《盗梦空间》的导演是谁?...”转换为嵌入向量。 - **相似度搜索**:在知识图谱中查找与问题最相关的节点和边。 - 匹配到的关键部分: - 节点:盗梦空间、克里斯托弗·诺兰、星际穿越 - 边:导演关系 #### **3. 子图构建(Subgraph Construction)** - 通过 **PCST 算法** 从知识图谱中提取一个紧凑的子图,确保信息完整且适合输入 LLM。 - 本例的子图可能如下(文本化表示): ``` [盗梦空间] --(导演)--> [克里斯托弗·诺兰] [星际穿越] --(导演)--> [克里斯托弗·诺兰] ``` #### **4. 生成阶段(Generation)** 将子图结构和原始问题一起输入 LLM(如 GPT-4),提示如下: ``` 基于以下知识图谱信息回答问题: ''' 《盗梦空间》的导演是克里斯托弗·诺兰。 《星际穿越》的导演是克里斯托弗·诺兰。 ''' 问题:“《盗梦空间》的导演是谁?他和《星际穿越》的导演是同一个人吗?” ``` - **LLM 的输出**: “《盗梦空间》的导演是克里斯托弗·诺兰。他也是《星际穿越》的导演,因此是同一个人。” ## LLM 总结 本章节介绍了 **G-Retriever**,这是一种基于“检索增强生成”(Retrieval-Augmented Generation, RAG)的方法,旨在提升对文本图(textual graph)的理解与问答性能。文章提出的问题背景是,传统的图问答系统在处理复杂、大规模的文本图数据时存在局限,尤其是在知识缺失或推理路径不明确的情况下。为此,G-Retriever 结合了信息检索和语言生成技术,利用外部知识库或文档来增强模型的推理能力。 具体而言,G-Retriever 架构分为两个主要模块:**检索模块**(用于从外部知识源中检索相关信息)和**生成模块**(基于检索结果生成答案)。这种方法不仅能够提升模型对复杂问题的理解能力,还能增强答案的可解释性和准确性。 文章还介绍了G-Retriever在多个文本图问答基准测试中的实验结果,表明该方法在多个指标上优于现有方法,尤其是在需要外部知识支持的任务中表现突出。此外,作者还分析了G-Retriever在不同检索策略和生成策略下的性能差异,进一步验证了其灵活性和鲁棒性。 总结来说,G-Retriever 通过引入检索增强机制,有效弥补了传统图问答模型在知识覆盖和推理能力上的不足,为文本图理解和问答任务提供了一种新的、高效的方法。 ## Abstract 本文提出了一种面向文本属性图的问答系统(G-Retriever),使用户可以通过对话式界面与图进行交互,提问并获得答案,同时高亮图中相关部分。传统方法虽将大语言模型(LLM)与图神经网络(GNN)结合,但多聚焦于节点分类等任务或在小规模/合成图上回答简单查询。本文则构建了一个面向真实场景的通用问答框架,适用于场景图理解、常识推理与知识图谱推理等多种任务。 为此,作者首先构建了GraphQA基准数据集,涵盖不同任务的数据。然后提出G-Retriever方法,引入首个适用于一般文本图的检索增强生成(RAG)方法,通过软提示微调提升图理解能力。为避免幻觉并处理超出LLM上下文窗口的图,该方法将RAG与图结构结合,转化为奖赏收集斯坦纳树优化问题。 实验结果表明,G-Retriever在多领域文本图任务中优于基线方法,可扩展性强且能有效缓解幻觉问题。论文代码和数据集已公开。 ## 1 Introduction ![](https://img.zhaoweiguo.com/uPic/2025/08/lQgz30.png) Figure 1:We develop a flexible question-answering framework targeting real-world textual graph applications via a unified conversational interface. Presented here are examples showcasing the model’s adeptness in handling generative and creative queries in practical graph-related tasks: common sense reasoning, scene understanding, and knowledge graph reasoning, respectively. 这篇论文的引言部分主要围绕**G-Retriever**这一新型问答框架展开,强调其在**真实文本图**(textual graphs)任务中的灵活性与实用性。以下是本章节内容的总结: --- ### **1. 图与大语言模型的结合** - 大语言模型(LLMs)在人工智能领域具有重大影响,尤其在处理复杂结构化数据(如图结构数据)方面潜力巨大。 - 现实世界中大量数据以图的形式存在,如互联网、电商网络、推荐系统和知识图谱等,其中许多图结构具有**文本属性**,适合结合LLMs进行处理。 - 现有研究多将图神经网络(GNNs)与LLMs结合以提升图推理能力,但大多集中在传统任务(如节点、边分类)或小型合成图上。 --- ### **2. 本研究的目标:实现“与图聊天”** - 本文提出一种**灵活的问答框架**,旨在通过**统一的对话接口**,让用户能与**复杂且真实世界中的图**进行交互。 - 这是迈向**直观图数据交互**的关键一步,适用于多种图应用,如**常识推理**、**场景理解**和**知识图谱推理**等。 --- ### **3. 提出一个新的GraphQA基准** - 当前缺乏一个专门针对**图结构**的问答(QA)基准。已有基准多关注节点度数、边存在性等简单任务。 - 本文提出一个适用于**真实世界复杂图应用**的GraphQA基准,涵盖常识推理、场景理解、知识图谱推理等任务,为评估模型能力提供统一标准。 --- ### **4. G-Retriever框架的提出** - 为实现高效、有效的图问答任务(尤其是面对大型图时),提出**G-Retriever**框架,结合**图神经网络**、**大语言模型**和**检索增强生成(RAG)**的优势。 - G-Retriever通过RAG组件从图中**选择性地检索相关信息**,解决了传统方法在信息丢失和幻觉问题上的局限。 --- ### **5. 解决图LLM中的幻觉问题** - LLM容易产生**幻觉(hallucination)**,即生成的内容与事实不符。 - 基于图的LLM同样存在该问题,因为其无法从单一图嵌入中完整回忆图结构,导致在问答任务中生成错误的节点或边。 - G-Retriever通过**直接从图中检索信息**,有效缓解了这一问题,实验结果表明其在答案准确性和解释性方面优于基线方法。 --- ### **6. 提高图LLM的扩展性与效率** - 将图转换为自然语言文本以输入LLM的方法存在**扩展性问题**:节点和边较多时会导致超出输入长度限制。 - 截断文本会丢失关键信息,影响回答质量。 - G-Retriever通过RAG机制**只检索相关部分**,在保持信息完整性的前提下提升了模型的**效率和扩展性**。 --- ### **7. 针对图结构设计的RAG方法** - 当前的RAG方法多针对简单数据类型或知识图谱,缺少对**通用文本图**的支持。 - 本文提出一种新的**子图检索方法**,将问题建模为**奖赏收集斯坦纳树(PCST)优化问题**,考虑邻居信息,从而返回与查询最相关的子图,提升**可解释性**。 --- ### **8. 本文的主要贡献** 1. **首次引入图结构的RAG方法**,提升图任务的可扩展性与效率。 2. **实现“与图聊天”**,开发统一的对话式问答框架,适用于复杂真实图数据。 3. **提出一个新的GraphQA基准**,填补图问答领域的重要研究空白。 4. **实验结果验证G-Retriever的性能**,并在多个领域展示其有效性,并揭示图LLM中幻觉问题的普遍性。 --- ### **总结** 本论文提出了一种面向真实文本图的问答系统G-Retriever,通过结合GNN、LLM和RAG,实现了高效、准确、可扩展的图问答能力,并通过新基准和实验验证了其在多种任务中的优越性,为图与语言模型的融合提供了新的思路。 ## 2 Related Work 这一章节主要综述了与图结构和大语言模型(LLM)结合相关的研究工作,分为三个主要方向:图结构与大语言模型的结合、检索增强生成(RAG)以及高效参数微调(PEFT)。 1. **图结构与大语言模型的结合**: 近年来,图结构技术与大语言模型的融合成为研究热点。相关工作涵盖了通用图模型的设计、多模态架构的构建,以及在图推理、节点分类、图分类/回归和知识图谱任务中的应用。已有研究在这些领域进行了探索,但将图结构与语言模型结合的方式仍在不断发展和完善。 2. **检索增强生成(RAG)**: RAG方法通过引入外部知识库的检索结果来增强大语言模型的生成能力,有效缓解了模型的幻觉问题,提升了可信度和可解释性。尽管RAG在语言任务中取得了成功,但在图结构任务中的应用仍较为有限,主要集中在知识图谱领域。本文则首次将RAG应用于一般图结构任务,拓展了其应用场景,体现了RAG方法的通用性和创新潜力。 3. **高效参数微调(PEFT)**: 为了在提升模型性能的同时减少训练参数的开销,研究界提出了一系列参数高效的微调方法,如Prompt Tuning、Prefix Tuning、LoRA和LLaMA-Adapter等。这些方法不仅在语言模型中发挥了重要作用,也为多模态模型的发展奠定了基础。此外,已有初步尝试将PEFT应用于图结构相关的语言模型中,如GraphLLM、GraphToken和GNP等,但相关研究仍处于起步阶段。 **总结**: 本节系统回顾了图结构与大语言模型结合的研究进展,指出了RAG在图任务中的潜在价值,以及PEFT方法在图语言模型中的应用前景。这些研究方向相互补充,为构建更强大、更灵活的图结构与语言处理系统提供了理论和技术支持。 ## 3 Formalization 本节对文本图、语言模型用于文本编码以及大语言模型和提示调优进行了形式化定义和说明,主要内容总结如下: 1. **文本图(Textual Graphs)** 文本图是一种节点和边都带有文本属性的图结构。形式化地表示为 $ G = (V, E, \{x_n\}_{n \in V}, \{x_e\}_{e \in E}) $,其中 $ V $ 是节点集合,$ E $ 是边集合,$ x_n \in D^{L_n} $ 和 $ x_e \in D^{L_e} $ 分别表示与节点 $ n $ 和边 $ e $ 相关的文本序列,$ D $ 是词汇表,$ L_n $ 和 $ L_e $ 分别表示节点和边文本的长度。 2. **语言模型用于文本编码(Language Models for Text Encoding)** 在文本图中,语言模型(LMs)用于对节点和边的文本属性进行编码,以学习其语义表示。对于节点 $ n $,其文本 $ x_n $ 被编码为向量 $ z_n = \text{LM}(x_n) \in \mathbb{R}^d $,其中 $ d $ 是输出向量的维度。 3. **大语言模型与提示调优(Large Language Models and Prompt Tuning)** 大语言模型(LLMs)采用了“预训练-提示-预测”的新范式,替代传统“预训练-微调”的方式: - LLM 首先在大规模语料上训练以学习语言表示; - 无需微调模型权重 $ \theta $,而是通过提示(prompt)引导模型完成特定任务; - 输入为任务相关的提示 $ P $ 和输入序列 $ X $,模型输出为序列 $ Y = \{y_1, y_2, \ldots, y_r\} $,其概率分布定义为: $$ p_\theta(Y|[P;X]) = \prod_{i=1}^r p_\theta(y_i | y_{