2405.14831_HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models

Abstract

摘要(Abstract)总结:

本章节介绍了HippoRAG,一个受人类大脑记忆机制启发的新型检索增强生成(RAG)框架。其核心目标是解决当前大语言模型(LLMs)在预训练后难以高效整合大量新知识的问题,尤其是在面对复杂、多跳问答任务时的表现不足。

核心内容重点讲解:

  • 研究动机:哺乳动物的大脑能够持续整合新信息而不遗忘旧知识,而当前的LLMs即使结合RAG技术,在这方面仍存在明显局限。

  • 方法创新:HippoRAG借鉴了海马体索引理论,模拟人类大脑新皮层与海马体在记忆中的不同作用。它结合了LLMs、知识图谱和个性化PageRank算法,实现对新经验的深度、高效知识整合。

  • 实验结果

    • 在多跳问答任务中,HippoRAG显著优于现有方法,提升幅度高达20202020%

    • 单步检索性能优于迭代检索方法(如IRCoT),同时在成本上低10101010-20202020倍速度上快6666-13131313倍

    • 将HippoRAG集成到IRCoT中还能带来进一步性能提升。

  • 应用场景拓展:HippoRAG能够处理现有方法无法应对的新类型任务,展现出更强的泛化能力。

图文说明简要讲解:

图1通过一个寻找“斯坦福大学研究阿尔茨海默症的教授”的例子,说明传统RAG系统因孤立编码文本而难以识别目标人物(如Thomas教授),而HippoRAG通过构建关联图谱,模拟人类联想记忆机制,显著提升检索效率。


整体来看,本摘要强调了HippoRAG在知识整合方面的突破性表现,展示了其在效率、效果和适用范围上的多重优势。

1 Introduction

本节介绍了哺乳动物大脑通过数百万年的进化,发展出一种强大的长期记忆系统,能够持续存储大量知识并整合新经验而不丢失旧知识。这种能力为人类的推理和决策提供了基础。

尽管大型语言模型(LLMs)近年来取得了显著进展,但目前的AI系统仍缺乏这种持续更新的长期记忆机制。为了解决这一问题,检索增强生成(RAG)成为当前主流方案,因其使用简便且优于模型编辑等其他方法,被广泛用于为静态语言模型提供外部知识。

然而,现有RAG方法存在局限性:它们通常将每段新知识孤立编码,无法有效整合跨段落的信息。而许多现实任务(如科学文献综述、法律案例摘要、医学诊断)以及标准的多跳问答(multi-hop QA)任务,都需要在多个文档或段落之间进行知识整合。虽然当前的RAG系统尝试通过多轮检索与生成来拼接信息,但即便执行完美的多步RAG也常常无法满足复杂的知识整合需求,尤其是在作者提出的“路径发现型多跳问题”中表现不佳。

相比之下,人类大脑在处理这类任务时表现出色。海马记忆索引理论(hippocampal memory indexing theory)提供了一个可能的解释:大脑通过新皮层(存储记忆表示)与海马体(存储记忆索引)之间的互动,实现基于上下文、持续更新的记忆系统。

受此启发,作者提出了HippoRAG,一种模仿人类记忆机制的RAG框架,作为LLMs的长期记忆系统。其核心创新在于:

  • 使用LLM将语料库转化为无模式知识图谱(schemaless KG),模拟海马索引;

  • 在面对新查询时,识别关键概念,并以这些概念为种子,运行个性化PageRank(PPR)算法,在KG中进行信息整合与检索;

  • 通过PPR算法探索KG路径并识别相关子图,实现单步多跳推理

实验结果显示,HippoRAG在两个主流多跳问答基准(MuSiQue 和 2WikiMultiHopQA)上比现有RAG方法提升了约3333和20202020个点。同时,其在线检索过程比当前迭代检索方法(如IRCoT)成本低10101010到30303030倍速度快6666到13131313倍,且性能相当。HippoRAG还可与IRCoT结合,进一步提升性能,在两个数据集上分别获得4444%和20202020%的提升,并在HotpotQA上也有改进。

最后,作者通过一个案例研究展示了现有方法的局限性,以及HippoRAG在路径发现型多跳问答任务中的潜力。

2 HippoRAG

本节介绍了 HippoRAG 的设计灵感来源——海马体记忆索引理论,并详细说明了其在信息索引与检索中的实现方法。


2.1 The Hippocampal Memory Indexing Theory(海马体记忆索引理论)

重点内容:

  • 该理论描述了人类长期记忆的三个核心组成部分,其目标是实现:

    • 模式分离(Pattern Separation):确保不同感知经验的表示是唯一的;

    • 模式补全(Pattern Completion):通过部分线索恢复完整记忆。

  • 记忆编码过程中,新皮层处理感知输入为高层特征,经旁海马区(PHR)传入海马体,海马体对显著信号进行索引并建立关联。

  • 记忆检索过程中,当海马体接收到部分输入时,通过CA3区域的神经网络激活相关记忆,并通过PHR反馈到新皮层进行模拟。

  • 该机制允许新信息仅通过更新海马体索引来整合,而无需修改新皮层的表示。


2.2 Overview(概述)

重点内容:

HippoRAG 的设计灵感直接来源于上述海马体理论,其三个组件分别对应人类长期记忆的三部分:

  1. 人工新皮层(Artificial Neocortex):使用指令调优的LLM提取知识图谱(KG)三元组;

  2. 人工海马体索引(Artificial Hippocampal Index):构建一个无模式的知识图谱,用于存储提取的离散名词短语;

  3. 人工旁海马区(Artificial PHR):使用检索编码器连接名词短语,增强图谱的连通性。

检索流程:

  • 查询时,LLM提取查询中的命名实体;

  • 检索编码器将这些实体映射到知识图谱中的节点;

  • 使用 个性化PageRank(PPR)算法 模拟海马体的模式补全过程,从部分线索中激活相关记忆;

  • 最终通过图谱概率传播,对文档进行排序。


2.3 Detailed Methodology(详细方法)

Offline Indexing(离线索引)

重点内容:

  • 使用LLM对每段文本进行开放信息抽取(OpenIE),提取名词短语和关系三元组;

  • 使用检索编码器添加同义关系(基于余弦相似度);

  • 构建一个 |N|×|P| 的矩阵,记录每个名词短语在每段文本中出现的频率;

  • 整个知识图谱构成“人工海马体索引”。

Online Retrieval(在线检索)

重点内容:

  • 对查询使用LLM提取命名实体(Query Named Entities);

  • 使用检索编码器将其映射到知识图谱中最相似的节点(Query Nodes);

  • 以这些节点为起点,运行 PPR算法,在图谱中扩散概率;

  • 最终将节点概率与索引矩阵相乘,得到每段文本的检索得分。

Node Specificity(节点特异性)

重点内容:

  • 引入“节点特异性”作为改进检索质量的机制;

  • 定义为:si = 1 / |Pi|,其中 Pi 是该节点在哪些文本中被提取;

  • 该指标模拟了传统信息检索中的 IDF(逆文档频率);

  • 在PPR前对每个查询节点的概率进行加权,提升检索相关性;

  • 图中通过符号大小展示特异性高低(如斯坦福标志比阿尔茨海默病标志更大,因其出现频率更低)。


总结

HippoRAG 是一个受海马体记忆机制启发的长时记忆系统,其核心在于:

  • 使用LLM提取结构化知识图谱;

  • 利用PPR算法模拟模式补全;

  • 引入节点特异性提升检索效果;

  • 整体结构与人类记忆系统高度类比,具有神经生物学合理性。

该方法在信息检索任务中展现出结构清晰、逻辑严谨的设计思路。

3 Experimental Setup

3 实验设置

3.1 数据集

本研究主要在两个具有挑战性的多跳问答基准数据集上评估方法的检索能力:MuSiQue(可回答)2WikiMultiHopQA。为了完整性,也包含了 HotpotQA 数据集,尽管它因存在许多虚假信号而被认为对多跳推理的测试效果较弱。实验中从每个验证集中提取了1000个问题,以控制实验成本。为了创建更真实的检索环境,参考 IRCoT 方法,将所有候选段落(包括支持和干扰段落)收集起来,形成每个数据集的检索语料库。表1展示了各数据集的检索语料库和知识图谱(KG)统计信息,包括段落数、唯一节点数、唯一边数等。

3.2 基线方法

与多种强且广泛使用的检索方法进行比较,包括:BM25ContrieverGTRColBERTv2。此外,还比较了两种近期的LLM增强基线方法:Propositionizer(将段落重写为命题)和 RAPTOR(构建摘要节点以简化长文档的检索)。除了单步检索方法,还包含了多步检索方法 IRCoT 作为基线。

3.3 评估指标

使用 召回率@2(R@2)召回率@5(R@5) 来评估检索性能,使用 准确匹配(EM)F1分数 来评估问答(QA)性能。

3.4 实现细节

默认情况下,使用 GPT-3.5-turbo-1106 作为LLM,并设置温度为0。使用 ContrieverColBERTv2 作为检索器。通过MuSiQue训练数据中的100个样例来调整HippoRAG的两个超参数:同义词阈值τ(设为0.8)PPR阻尼因子(设为0.5)。研究发现,HippoRAG的性能对超参数具有较强的鲁棒性。更多实现细节请参见附录H。

4 Results

本章节展示了HippoRAG在检索(Retrieval)和问答(QA)任务上的实验结果。由于HippoRAG主要影响检索性能,因此问答结果基于其表现最好的检索模型ColBERTv2。同时,作者也评估了多种单步和多步检索方法的检索效果。


单步检索结果(Single-Step Retrieval Results)

如表2所示,HippoRAG在两个主要多跳问答数据集 MuSiQue2WikiMultiHopQA 上显著优于所有基线方法(包括基于LLM的增强方法如Propositionizer和RAPTOR),在 HotpotQA 上也表现良好但优势较小。

  • 关键提升

    • 在2WikiMultiHopQA上,R@2和R@5分别提升了约 11%20%

    • 在MuSiQue上,R@2和R@5分别提升了约 3%

  • 原因分析

    • 2WikiMultiHopQA以实体为中心的设计特别适合HippoRAG的结构。

    • 在HotpotQA上表现略低,主要是因为该数据集对知识整合要求较低,且存在概念与上下文之间的权衡问题(可通过附录F.2中的集成方法缓解)。


多步检索结果(Multi-Step Retrieval Results)

如表3所示,HippoRAG与IRCoT等多步检索方法结合后,进一步提升了检索性能,说明两者具有互补性。

  • 关键提升

    • 在MuSiQue上,R@5提升了约 4%

    • 在2WikiMultiHopQA上,R@5提升了约 18%

    • 在HotpotQA上,R@5提升了约 1%

这表明HippoRAG不仅在单步检索中表现优异,在多步推理任务中也能持续增强检索能力。


问答结果(Question Answering Results)

如表4所示,HippoRAG的问答性能与其检索性能高度相关。

  • 单步检索对比

    • HippoRAG(基于ColBERTv2)在F1指标上分别比ColBERTv2提升了:

      • MuSiQue:+5.7%

      • 2WikiMultiHopQA:+16.2%

      • HotpotQA:+2.3%

  • 多步检索对比

    • IRCoT + HippoRAG在F1指标上分别比IRCoT + ColBERTv2提升了:

      • MuSiQue:+3.2%

      • 2WikiMultiHopQA:+17.6%

      • HotpotQA:+0.8%

  • 效率优势

    • HippoRAG在单步检索中与IRCoT效果相当甚至更优,但在线检索时成本低 10-30倍,速度快 6-13倍(详见附录G)。


总结

  • HippoRAG在检索任务中表现突出,尤其在需要多跳推理和实体关联的数据集(如2WikiMultiHopQA)上提升显著。

  • 与多步检索方法IRCoT结合后,性能进一步提升,说明其具有良好的扩展性和兼容性。

  • 在问答任务中,HippoRAG显著提升了QA效果,同时具备更高的效率和更低的成本,适合实际部署。

5 Discussions

5.1 是什么让 HippoRAG 有效?

本节通过替换 HippoRAG 的不同模块并进行消融实验,分析其性能提升的关键因素。

OpenIE 替代方案

作者尝试用 REBEL 和 Llama-3.1 系列模型替代原本使用的 GPT-3.5 作为 OpenIE 模块,以评估其对性能的影响:

  • REBEL:性能大幅下降,说明其生成的三元组数量远少于 GPT-3.5,缺乏灵活性。

  • Llama-3.1-8B:在除 2Wiki 外的其他数据集上表现与 GPT-3.5 相当。

  • Llama-3.1-70B:在三个数据集中的两个表现优于 GPT-3.5,在 2Wiki 上也具有竞争力。

此外,通过 CaRB 框架对 OpenIE 进行小规模内在评估,发现 Llama-3.1 虽略逊于 GPT-3.5,但远优于 REBEL。

重点:OpenIE 模块的质量对 HippoRAG 的性能至关重要,而 Llama-3.1(尤其是 70B 版本)是一个具有成本效益的替代方案。

PPR 替代方案

作者尝试用不同的概率传播方式替代 PPR(个性化 PageRank):

  • 仅使用查询节点:性能下降明显。

  • 查询节点 + 邻居节点:性能更差,说明 PPR 在传播信息方面更有效。

重点:PPR 是 HippoRAG 成功的关键组件,它能有效整合图结构中的多跳关联。

消融实验

  • 去除节点特异性:在 MuSiQue 和 HotpotQA 上性能下降明显,但在 2Wiki 上影响不大。

  • 去除同义词边:对 2Wiki 提升最大,说明其在实体标准化方面有帮助。

重点:节点特异性对多跳推理更重要,而同义词边在处理命名实体时更有价值。


5.2 HippoRAG 的优势:单步多跳检索

HippoRAG 的一大优势是能够在单步中完成多跳检索,而传统方法需要多轮迭代。

性能对比

表6展示了“全召回率”(AR@2/AR@5)指标,即所有支持段落都被成功检索的比例:

  • HippoRAG 在 MuSiQue 和 2Wiki 上显著优于 ColBERTv2,尤其在 AR@5 指标上。

  • 说明 HippoRAG 更擅长一次性检索出所有相关文档,而非部分检索。

示例分析

  • 表7 中第一个例子显示,HippoRAG 能通过“Vila de Xira 是 Alhandra 出生地”这一关系,直接检索出未提及 Alhandra 的段落。

  • 而 IRCoT 虽也能完成多跳检索,但成本是 HippoRAG 的 10–30 倍,速度慢 6–13 倍。

重点:HippoRAG 的单步多跳检索能力不仅性能更强,而且效率更高,适合实际部署。


5.3 HippoRAG 的潜力:路径发现型多跳检索

本节介绍 HippoRAG 在“路径发现型多跳问题”上的潜力,这类问题需要在多个可能路径中找出正确关联。

问题类型

  • 路径跟随型:如“某人出生地”,路径唯一,传统方法也能处理。

  • 路径发现型:如“斯坦福大学研究阿尔茨海默症神经科学的教授”,存在多个可能路径,需要整合知识。

实验结果

  • ColBERTv2 和 IRCoT:无法有效检索相关段落。

  • HippoRAG:利用图结构和知识关联,成功检索出 Thomas Südhof 的相关信息。

重点:HippoRAG 能处理传统方法无法解决的复杂路径发现型问题,展示了其在知识整合方面的潜力。


总结

  • 5.1 分析了 HippoRAG 的关键模块,强调了 OpenIE、PPR 和图结构的重要性。

  • 5.2 展示了 HippoRAG 在单步多跳检索上的性能和效率优势。

  • 5.3 提出了 HippoRAG 在路径发现型多跳问题上的独特能力,预示其在复杂推理任务中的应用前景。

7 Conclusions & Limitations

7 结论与局限性

结论

本研究提出了一种基于神经生物学原理的方法——HippoRAG,尽管其结构简单,但已展现出克服传统RAG系统固有局限性的潜力,同时保留了其相对于参数化记忆的优势。

HippoRAG在以下方面表现出色:

  • 知识整合能力:在路径跟随型多跳问答任务中表现优异,在路径探索型任务中也展现出潜力;

  • 效率优势:相比传统方法有显著的效率提升;

  • 持续更新能力:支持知识的动态更新。

这些特点使HippoRAG成为传统RAG与参数化记忆之间的一种有力折中方案,为大语言模型(LLMs)提供了一种具有吸引力的长期记忆机制

局限性

尽管HippoRAG表现良好,但仍存在一些可改进的局限性:

  1. 组件未进行微调:目前所有模块均直接使用现成工具,未进行额外训练。通过微调关键组件(如NER和OpenIE),系统实用性有望大幅提升。附录F的错误分析显示,系统大部分错误来源于NER和OpenIE模块。

  2. 图搜索算法的局限性:当前使用的是简单的PPR(Personalized PageRank)算法。附录F指出,可以通过引入关系引导的图遍历机制来提升性能。

  3. OpenIE在长文档中的不一致性:附录F.4显示,OpenIE在处理长文档时表现不稳定,需进一步优化其在长文本中的表现。

  4. 可扩展性尚未充分验证:虽然实验表明Llama-3.1在性能上接近闭源模型,具备成本优势,但HippoRAG的合成海马索引在规模远超当前基准时的效率与效果仍需实证验证。


综上,HippoRAG为LLMs提供了一个有前景的长期记忆框架,但其各组件的优化与系统在大规模场景下的表现仍需未来研究进一步探索。

Appendices

附录 A:HippoRAG Pipeline Example(HippoRAG流程示例)

  • 本节通过一个具体的流程示例展示了HippoRAG系统的运行过程。

  • 重点内容:详细描述了从输入处理、记忆提取、推理到输出生成的各个阶段,帮助读者理解HippoRAG如何整合神经生物学启发机制来实现长期记忆功能。


附录 B:Dataset Comparison(数据集比较)

  • 对比了HippoRAG所使用的多个数据集的特性,包括数据规模、任务类型和来源。

  • 重点内容:强调了所选数据集在多跳问答、路径发现等任务上的适用性,以及与其他主流记忆系统评估数据集的差异。


附录 C:Ablation Statistics(消融实验统计)

  • 提供了模型不同组件的消融实验结果,用于评估各模块对整体性能的贡献。

  • 重点内容:展示了去除或修改某些神经生物学启发机制(如海马体模拟模块)后性能的变化,验证了设计的有效性。


附录 D:Intrinsic OpenIE Evaluation(内在OpenIE评估)

  • 对系统中使用的开放信息抽取(OpenIE)模块进行了内部评估。

  • 重点内容:分析了OpenIE在提取结构化知识方面的准确率和召回率,说明其在构建记忆网络中的作用。


附录 E:Path-Finding Multi-Hop QA Case Study(路径发现型多跳问答案例研究)

  • 通过一个具体案例展示了HippoRAG在解决需要多步推理的问答任务中的表现。

  • 重点内容:详细分析了系统如何通过记忆检索和路径推理找到答案,体现了其类脑记忆整合能力。


附录 F:Error Analysis(错误分析)

  • 分析了模型在测试中出现的典型错误类型及其原因。

  • 重点内容:识别出信息遗漏、路径推理失败和记忆干扰等主要问题,为后续改进提供方向。


附录 G:Cost and Efficiency Comparison(成本与效率比较)

  • 比较了HippoRAG与其他记忆系统在计算资源消耗和运行效率方面的差异。

  • 重点内容:展示了HippoRAG在保持高性能的同时,具有相对合理的资源开销。


附录 H:Implementation Details & Compute Requirements(实现细节与计算需求)

  • 提供了模型实现的技术细节,包括参数设置、训练流程和使用的硬件配置。

  • 简要说明:适合希望复现实验的读者参考,内容较为技术性。


附录 I:LLM Prompts(大语言模型提示)

  • 列出了实验中使用的大语言模型的提示模板。

  • 简要说明:展示了如何引导模型执行特定任务,如信息抽取、推理等。


如需进一步了解某一附录的详细内容,可参考原文链接或相关实验说明。

Appendix A HippoRAG Pipeline Example

本节通过一个具体的例子来展示 HippoRAG 的工作流程,使用的是 MuSiQue 数据集中“路径跟随”类型的问题,如表7所示。


1. 示例问题与标注内容(图3)

  • 问题与答案:提供了一个具体问题及其正确答案。

  • 支持段落与干扰段落

    • 需要两个支持段落才能回答该问题。

    • 干扰段落内容与问题中提到的“district”相关,但不提供关键信息。

重点:展示了问题需要多跳推理(multi-hop reasoning),即必须结合多个文档片段才能得出答案。


2. 索引阶段(图4)

  • 流程

    • 对每个文档段落依次进行 NER(命名实体识别)OpenIE(开放式信息抽取)

    • 构建整个语料库的开放知识图谱(KG)

  • 展示内容

    • 图中仅显示了与问题相关的KG 子图

重点:OpenIE 用于提取实体间的关系,构建结构化知识图谱,为后续检索提供基础。


3. 检索阶段(图5)

  • 步骤

    1. 查询 NER:从问题中提取命名实体(如“Alhandra”)。

    2. 查询节点检索:使用检索编码器选择 KG 中的对应节点。

      • 示例中“Alhandra”的实体名与 KG 中的节点名一致。

    3. PPR 算法应用

      • 基于查询节点设置个性化概率。

      • 利用图结构传播概率,使相关节点(如“Vila France de Xira”)获得更高概率。

    4. 段落排序

      • 将节点概率汇总到其所属的段落中,进行段落级排序。

      • 高概率节点所在的段落被排在最前面。

重点:PPR(Personalized PageRank)算法是关键,它通过图结构实现多跳推理,将查询意图传播到相关节点,从而提升检索准确性。


总结

本节通过一个具体问题展示了 HippoRAG 的完整流程,包括:

  • 索引阶段:构建基于 OpenIE 的知识图谱;

  • 检索阶段:结合 NER、KG 查询节点和 PPR 算法实现多跳推理;

  • 核心优势:利用图结构进行单步多跳检索,提升复杂问题的解答能力。

Appendix B Dataset Comparison

本节主要分析所使用的三个数据集之间的差异,特别关注干扰段落(distractor passages)的质量,即这些干扰段落是否能够有效混淆于支持段落(supporting passages)之间。

核心分析方法:

  • 使用 Contriever 模型计算问题与候选段落之间的匹配得分。

  • 绘制得分密度图(见图6),比较干扰段落和支持段落的得分分布。

重点内容:

  • 理想情况:干扰段落的得分分布应接近支持段落的平均得分,这样才能有效混淆模型判断。

  • HotpotQA 的问题:与其他两个数据集相比,HotpotQA 中的干扰段落得分更接近支持段落下限,说明这些干扰段落与问题的相关性较弱,不够具有迷惑性

  • 这意味着 HotpotQA 中的干扰段落质量相对较低,可能影响模型在真实场景下的鲁棒性评估。

总结:

本节通过 Contriever 得分分析指出,HotpotQA 的干扰段落在语义匹配上不如其他数据集有效,这可能影响该数据集在评估检索增强生成(RAG)系统时的挑战性和实用性。

Appendix C Ablation Statistics

附录 C 消融实验统计(Ablation Statistics)

内容概述:

本节主要通过使用不同语言模型进行开放信息抽取(OpenIE)的消融实验,比较它们在构建知识图谱时生成的节点、边和三元组数量,从而评估模型的表现能力。


1. 使用的模型

实验中使用了以下几种语言模型进行比较:

  • GPT-3.5 Turbo

  • REBEL-large

  • Llama-3.1(8B 和 70B 参数)


2. 主要发现

(1)REBEL 的表现

  • 节点和边的数量:REBEL 生成的节点和边数量大约是 GPT-3.5 Turbo 和 Llama 模型的一半。

  • 结论:这说明 REBEL 在开放信息抽取方面灵活性较低,不如 GPT 和 Llama 系列模型。

(2)Llama-3.1 的表现

  • 三元组数量:Llama-3.1(8B 和 70B)生成的 OpenIE 三元组数量与 GPT-3.5 Turbo 相近。

  • 结论:Llama-3.1 在信息抽取能力上与 GPT-3.5 Turbo 相当,具备良好的开放信息提取能力。


3. 数据统计(Table 8)

表格展示了在三个数据集(MuSiQue、2Wiki、HotpotQA)上不同模型生成的知识图谱统计信息,包括:

  • 唯一节点数(Unique Nodes)

  • 唯一边数(Unique Edges)

  • 唯一三元组数(Unique Triples)

  • 使用 ColBERTv2 生成的同义边数(Synonym Edges)

重点内容:

  • GPT-3.5 Turbo 和 Llama-3.1 在节点和边的数量上明显多于 REBEL,说明其信息抽取更全面。

  • Llama-3.1-8B 和 70B 的表现接近,说明模型规模对 OpenIE 的影响有限。

  • ColBERTv2 生成的同义边 数量也反映了不同模型提取关系的多样性。


总结:

本节通过对比不同模型在 OpenIE 任务中的图谱构建能力,验证了 GPT-3.5 Turbo 和 Llama-3.1 在信息抽取方面的优势,而 REBEL 则因生成节点和边较少,显示出其局限性。

Appendix D Intrinsic OpenIE Evaluation

附录 D 内在的 OpenIE 评估

本节旨在分析开放式信息抽取(OpenIE)与检索性能之间的关系。研究者从 MuSiQue 训练数据集中选取了20篇文档,提取了239个“黄金三元组”(gold triples)进行评估。

主要发现:

  1. 端到端信息抽取系统与大语言模型(LLM)之间的巨大差异
    表格结果显示,像 REBEL 这样的端到端 OpenIE 系统在 AUC、精确率、召回率和 F1 分数等指标上表现极差,远低于 GPT-3.5 和 Llama-3 系列模型。这表明当前的 LLM 在 OpenIE 任务上具有显著优势。

  2. OpenIE 性能与检索性能之间存在一定的相关性
    例如,Llama-3.1-70B-Instruct 模型在检索和内在指标上都优于其较小版本 Llama-3.1-8B-Instruct,说明模型规模可能对两者都有积极影响。

  3. 召回率是影响检索性能的关键因素
    Llama-3.1-70B-Instruct 相比于其 8B 版本,在召回率上有明显提升,而其他指标如精确率和 F1 提升有限。这表明,召回率的提升可能对检索效果有更直接的影响

  4. OpenIE 内在评估与检索性能并非完全一致
    尽管 GPT-3.5 Turbo 在 OpenIE 的内在评估中表现优于 Llama-3.1-70B-Instruct,但其在检索任务中的得分仅略高。这说明内在指标不能完全反映实际检索效果,还需结合端到端任务进行综合评估。

总结:

本节通过对比不同模型在 OpenIE 上的内在表现与检索性能,揭示了以下几点核心结论:

  • LLM 在 OpenIE 上显著优于传统端到端系统(如 REBEL);

  • 模型规模与检索性能、OpenIE 召回率之间存在正相关;

  • 召回率可能是影响检索效果的关键 OpenIE 指标;

  • OpenIE 的内在评估结果与实际检索性能不完全一致,需结合任务导向的评估。

(注:表格内容已按原文结构和指标进行简要解读,未逐项列出数值。)

Appendix E Case Study on Path-Finding Multi-Hop QA

附录E:路径查找多跳问答案例研究总结

E.1 路径查找多跳问题构建过程

本节详细介绍了路径查找多跳问题的构建方法。前两个问题的构建流程略有不同,主要围绕书籍或电影展开。首先确定一本书或一部电影,然后找到其作者或导演,再分别提取书籍/电影和作者/导演的一个特征,利用这些特征从维基百科中筛选干扰项。

第三个问题以及主文中的示例问题则采用另一种方式构建。首先随机选择一位教授或一种药物作为答案,然后获取该教授所在大学或药物治疗疾病的名称,以及教授的研究方向或药物的作用机制。通过大学/疾病和研究方向/作用机制这两个维度,从维基百科中提取干扰项。这一过程虽然繁琐,但确保了问题的挑战性和现实性。

重点总结:

  • 前两个问题基于书籍/电影及其作者/导演构建。

  • 第三个问题基于教授/药物及其相关属性构建。

  • 干扰项均来自维基百科,确保问题具有真实性和难度。

E.2 定性分析

本节通过表格展示了三个不同领域的多跳问答示例,说明HippoRAG在跨文档知识整合任务中的优势,并与ColBERTv2和IRCoT进行对比。

  1. 第一个问题:寻找2012年出版、由获得特定奖项的英国作家所写的书。

    • HippoRAG:成功识别出Mark Haddon为正确作者。

    • ColBERTv2:关注奖项相关段落,未能找到正确答案。

    • IRCoT:错误地将1995年获奖的Kate Atkinson视为答案。

  2. 第二个问题:寻找由擅长科幻与犯罪类型的导演执导、改编自非虚构书籍的战争电影。

    • HippoRAG:在前四段中找到Ridley Scott执导的《黑鹰坠落》。

    • ColBERTv2:完全遗漏正确答案,检索出其他电影。

    • IRCoT:虽然识别出Ridley Scott,但依赖参数知识,未能找到具体电影《黑鹰坠落》。

  3. 第三个问题:寻找通过细胞质p53相互作用治疗慢性淋巴细胞白血病的药物。

    • HippoRAG:正确识别出Chlorambucil。

    • ColBERTv2:仅能检索与疾病相关的段落。

    • IRCoT:依赖参数知识猜测Venetoclax为答案,但数据集中并无明确支持。

重点总结:

  • HippoRAG在三个问题中均能准确找到答案,尤其在跨文档信息整合方面表现突出。

  • ColBERTv2和IRCoT在多跳推理任务中存在明显局限,前者容易遗漏关键信息,后者依赖参数知识而缺乏数据支持。

  • 这些问题贴近现实场景,如用户通过零散信息回忆特定电影或书籍,或医学领域中寻找特定药物机制。

表格10总结: 展示了不同方法在三个问题中的检索排名结果,进一步验证了HippoRAG在路径查找多跳问答任务中的优越性能。

Appendix F Error Analysis

附录 F:错误分析总结

F.1 概述

本节对 HippoRAG 在 MuSiQue 数据集上的 100 个错误进行了详细分析,错误主要分为三类:NER(命名实体识别)限制、OpenIE(开放信息抽取)错误和 PPR(个性化 PageRank)问题。

  • NER 限制:占 48%,是主要错误来源。由于 NER 设计未能从查询中提取足够的信息,导致后续检索遗漏关键信号。例如,问题“某个浏览器的 Windows 8 版本何时发布?”中,仅提取了“Windows 8”,忽略了“浏览器”和“发布”等关键信息。

  • OpenIE 错误:占 28%,主要表现为未能正确提取关键三元组。例如,歌曲名称“Don’t Let Me Wait Too Long”未被识别,影响了后续检索。

  • PPR 问题:占 24%,即使 NER 和 OpenIE 正常工作,PPR 仍可能因干扰信号无法识别相关子图。例如,查询“胡格诺派移民的欧洲国家是哪个?”中,尽管“胡格诺派”被正确识别,但 PPR 未能找到最相关的子图。

F.2 概念与上下文的权衡

HippoRAG 的实体中心设计使其偏向于提取概念,而忽略了上下文信息,这在某些情况下是优势,但在其他情况下则成为限制。

  • 优势:在多跳检索中,HippoRAG 能够聚焦关键实体,如“Sergio Villanueva”,而 ColBERTv2 可能被上下文误导。

  • 局限性:忽略上下文导致约 48% 的错误。例如,当问题涉及“质子”时,HippoRAG 提取了“铀”和“核武器”相关段落,而 ColBERTv2 利用上下文找到了更相关的“原子序数”信息。

改进方法:引入“不确定性集成”机制,在 HippoRAG 对实体链接不确定时,结合传统密集检索器(如 ColBERTv2)提升性能。结果显示,该方法在 MuSiQue 和 HotpotQA 上表现更好,但在 2WikiMultiHopQA 上效果下降,说明仍需优化上下文与概念的平衡。

F.3 OpenIE 的局限性

OpenIE 是从非结构化文本中提取结构化知识的关键步骤,但其存在以下问题:

  • 关键信息遗漏:例如,歌曲名称“Don’t Let Me Wait Too Long”未被正确提取,影响后续检索。

  • 时间信息识别不足:如“美墨战争”的起止年份未被识别,导致时间相关问题回答失败。

这些错误表明,OpenIE 在提取长实体和时间信息方面仍需改进。

F.4 OpenIE 文档长度分析

对 GPT-3.5 Turbo 的 OpenIE 方法进行长度依赖性评估,结果显示:

  • 短文档表现较好:AUC 为 58.9,F1 分数为 71.8。

  • 长文档表现下降:AUC 降至 39.0,F1 分数降至 53.9,主要原因是长文档的句子和段落复杂度更高,导致提取质量下降。

结论:OpenIE 在处理长文档时效果不佳,需进一步优化,避免因分块处理导致的句子依赖问题。


总结

本附录系统分析了 HippoRAG 的主要错误来源,并提出了改进方向:

  • NER:需增强对上下文信息的提取能力。

  • OpenIE:需提升对长实体和时间信息的识别能力。

  • PPR:需优化子图识别机制,减少干扰信号影响。

  • 集成策略:不确定性集成可提升性能,但需进一步优化以适应不同数据集。

Appendix G Cost and Efficiency Comparison

附录 G 成本与效率对比

核心优势总结:

HippoRAG 相较于迭代检索方法(如 IRCoT),在在线检索效率方面具有显著优势,主要体现在成本更低、响应更快


1. 在线检索成本与效率对比

表17:使用 GPT-3.5 Turbo 对 1000 条查询的平均成本与效率

指标

ColBERTv2

IRCoT

HippoRAG

API 成本(美元)

0

1111–3333

0.1

时间(分钟)

1111

2020–4040

3333

  • 成本方面

    • IRCoT 的 API 成本是 HippoRAG 的 1000 万到 3000 万倍

    • HippoRAG 仅需从查询中提取命名实体,而 IRCoT 需要处理所有检索到的文档,导致成本剧增。

  • 效率方面

    • HippoRAG 比 IRCoT 快 666 到 1313 万倍,具体取决于 IRCoT 的迭代次数(实验中为 222 到 444 次)。

    • 由于 IRCoT 是串行执行,HippoRAG 的单步多跳检索显著减少了响应时间。


2. 离线索引成本与效率对比

表18:使用 GPT-3.5 Turbo 和本地部署 Llama-3.1 对 10,000 条文档的平均索引成本与时间

模型

指标

ColBERTv2

IRCoT

HippoRAG

GPT-3.5 Turbo-1106

API 成本(美元)

0

0

1515

时间(分钟)

777

777

6060

Llama-3.1-8B

API 成本(美元)

0

0

0

时间(分钟)

777

777

120120

Llama-3.1-70B

API 成本(美元)

0

0

0

时间(分钟)

777

777

250250

  • HippoRAG 的劣势

    • 离线索引阶段比 IRCoT 更慢、更贵,大约是 IRCoT 的 10 倍慢,每 10,000 条文档贵 $15

  • 优化手段

    • 使用本地部署的开源模型(如 Llama-3.1)可显著降低成本,甚至为零(无 API 费用)。

    • 例如,Llama-3.1-70B 使用 4 块 H100 GPU 可在约 4 小时内完成 10,000 条文档索引。


3. 成本下降趋势与未来展望

  • 即使未来 LLM 生成成本下降,HippoRAG 的在线检索效率优势依然存在,因为其所需 token 数量远低于 IRCoT。

  • LLM 仍将是系统的主要计算瓶颈,因此 HippoRAG 的效率优势具有长期价值。


总结

  • HippoRAG 的核心优势在于在线检索阶段的高效性,无论在成本还是响应时间上都远优于 IRCoT。

  • 离线索引成本较高,但可通过本地部署开源模型(如 Llama-3.1)大幅降低。

  • 适合高并发、大规模使用场景,尤其适合对响应速度和成本控制有高要求的组织。

Appendix H Implementation Details & Compute Requirements

附录 H 实现细节与计算需求

实现细节

本节补充了 §3.4 中未涵盖的技术实现细节。模型主要基于 PyTorchHuggingFace 框架实现,ContrieverColBERTv2 的实现也基于这两个框架。

  • PPR(Personalized PageRank)算法 使用了 python-igraph 库的实现。

  • BM25 检索器 采用 Elastic Search 实现。

多步检索设置

  • 使用与 IRCoT 相同的提示(prompt)实现方式,每步检索 Top-10 个段落

  • 根据数据集的推理链长度限制,设定最大推理步数:

    • HotpotQA2WikiMultiHopQA:最多 2 步

    • MuSiQue:最多 4 步

IRCoT 与不同检索器的结合

  • 将 IRCoT 中的默认 BM25 替换为其他检索方法(包括 HippoRAG),记为 “IRCoT + HippoRAG” 等。

  • 因原始 IRCoT 无法提供每个段落的评分,采用 beam search 进行迭代检索,每个候选段落保留其历史最高评分。

QA 阅读器设置

  • 使用 Top-5 个检索段落 作为上下文

  • 使用 1-shot QA 示例,并采用 CoT(Chain-of-Thought)提示策略


计算资源需求

由于 OpenAI 未公开部分模型的计算需求,本节仅提供部分信息:

  • ColBERTv2Contriever 的索引与检索:使用 4 块 NVIDIA RTX A6000 GPU(每块 48GB 显存)

  • Llama-3.1 模型索引:使用 4 块 NVIDIA H100 GPU(每块 80GB 显存)

  • PPR 算法运行:使用 2 个 AMD EPYC 7513 32 核处理器


总结

本节详细说明了 HippoRAG 及其对比方法在实现上的具体技术选型与参数设置,重点包括多步检索流程、IRCoT 改进方式、QA 阅读器配置等。计算资源方面,主要依赖高性能 GPU 和 CPU,但部分模型的计算需求因未公开而无法详述。

Appendix I LLM Prompts

附录I:大语言模型提示

本节内容展示了HippoRAG系统中所使用的提示(Prompt)设计,主要分为三类:索引阶段的命名实体识别(NER)提示、查询阶段的NER提示,以及用于索引阶段的开放信息抽取(OpenIE)提示。具体内容如下:

图7:索引阶段的NER提示

该提示用于在构建知识库时对文本段落进行命名实体识别。其目标是识别出段落中的关键实体,以便后续构建记忆图谱。提示设计强调了实体的类型和上下文信息,确保LLM能够准确提取所需信息。

图8:查询阶段的NER提示

该提示用于在用户查询时提取查询语句中的关键实体。与图7类似,但更侧重于理解用户输入的语言风格和意图,以提升检索的准确性。

图9:OpenIE提示

该提示用于在索引阶段提取文本中的三元组(主语-谓语-宾语)结构信息,从而构建结构化知识。OpenIE提示的设计目标是让LLM从非结构化文本中提取出语义明确的关系信息,用于增强系统的长期记忆能力。

总结

本节附录详细展示了HippoRAG系统在不同阶段使用的LLM提示模板,主要包括命名实体识别和开放信息抽取两方面的提示。这些提示设计对系统的记忆构建与检索能力具有关键作用,是实现神经生物学启发式长期记忆机制的重要组成部分。