# 2503.09149_MemVid: Memory-enhanced Retrieval Augmentation for Long Video Understanding * 首页: * PDF: * 引用: 11(2025-12-14) ## From Moonlight ### 三行摘要 1. 🧠 MemVid 提出了一种受人类认知记忆启发的记忆增强型 RAG 框架,通过“记忆-推理-检索-聚焦”四阶段流程,有效解决了长视频理解中现有 LVLM 信息丢失和 RAG 缺乏隐式查询推理能力的问题。 2. 📚 为优化 MemVid 的推理能力和端到端性能,该方法设计了一个课程学习框架,首先通过有监督学习进行预热,然后利用生成反馈的强化学习进一步提升推理结果的质量。 3. 🚀 在 MLVU、VideoMME 和 LVBench 等主流长视频理解基准测试中,MemVid 展现出卓越的效率和有效性,显著超越了现有的 LVLM 和其他 RAG 方法,实现了更优的性能与成本效益。 ### 关键词 - Long-Video Understanding: 长期视频理解(Long-Video Understanding, LVU)是指在计算机视觉领域,对包含大量时间信息的长视频内容进行分析和理解的任务。这对于视频分析、自动驾驶和具身AI等现实世界应用至关重要。与处理短视频或静态图像不同,长视频理解面临着如何有效处理冗长信息、捕捉关键事件和理解时序关系等挑战。现有方法常因信息丢失(如压缩或降采样)和计算成本高昂而难以应对。 - Long-Context Vision-Language Models: 长上下文视觉语言模型(Long-Context Vision-Language Models, LVLMs)是现有视觉语言模型(VLMs)的延伸,旨在扩展其处理能力以理解更长的视频序列。尽管它们通过扩大上下文窗口来减少信息损失,但仍然受限于原始视频序列的压缩、强制降采样带来的信息丢失以及高昂的计算成本。 - Retrieval-Augmented Generation: 检索增强生成(Retrieval-Augmented Generation, RAG)是一种通过检索相关信息来辅助生成任务的技术。在处理长序列问题时,RAG通过从海量数据中检索出有用的信息,然后基于高度简化的输入进行内容生成,从而实现成本效益。在视频领域,它通过检索视频中的相关时刻或帧来辅助回答问题。然而,标准RAG在处理需要隐含推理或复杂信息需求的问题时能力受限,因为它依赖于明确的查询,可能导致错过关键证据。 - MemVid: MemVid是本文提出的一种新颖的、受人类认知记忆启发的记忆增强检索增强(memory-enhanced retrieval augmentation)框架,专门用于解决长期视频理解(LVU)的挑战。它通过模拟人类记忆和推理过程,能够更有效地处理长视频中的信息。 - Memory-enhanced Retrieval Augmentation: 记忆增强检索增强(Memory-enhanced Retrieval Augmentation)是MemVid框架的核心概念。它在传统的检索增强(RAG)基础上,引入了一个“记忆”模块,用于存储视频的整体信息,并在此基础上进行“推理”以生成任务相关的“线索”(clues)。这些线索指导检索器更精准地定位视频中的关键时刻(evidentiary moments),从而克服了标准RAG在处理复杂或隐含查询时的不足,减少了信息丢失和证据遗漏。 - Memorizer: 记忆器(Memorizer)是MemVid框架中的一个核心模块,负责扫描整个长视频并将其整体信息存储到内存(Memory M)中,以形成对视频的全面理解。它通过编码视频的稀疏采样帧,并将其转化为一种可供推理的“记忆”表示(例如,基于Transformer的KV缓存)。记忆器是MemVid进行后续推理和生成检索线索的基础。 - Reasoning: 推理(Reasoning)在MemVid框架中扮演着至关重要的角色,特别是在“记忆器”模块之后。它接收整体视频记忆和用户问题,旨在推断出完成任务(如回答问题)所需的信息需求,并生成一系列“任务导向的检索线索”(task-oriented retrieval clues)。这些线索比原始问题更具体、更利于指导检索器去定位视频中的关键证据片段,从而实现了更深层次、更智能的视频内容理解。 - Curriculum Learning: 课程学习(Curriculum Learning)是MemVid用于训练其“记忆器”模块的策略。该策略通过分阶段的方式逐步提升模型的学习效率和性能。首先,采用监督式微调(SFT)阶段,使用高质量的、由强大教师模型生成的标注数据来预训练记忆器,使其能够生成结构化的推理输出。接着,引入带有生成反馈的强化学习(RLGFNTP)阶段,利用下游生成器对答案的正确性来优化检索线索,使其与端到端的最佳性能对齐。这种方法确保了记忆器能更好地服务于检索和最终的答案生成。 ### 摘要 本文介绍了一种名为 MemVid 的新型记忆增强型检索增强生成(RAG)方法,旨在解决长视频理解(LVU)中的挑战。当前的长上下文视觉-语言模型(LVLMs)因压缩和暴力下采样导致信息丢失,而现有 RAG 方法则受限于显式查询依赖性,无法有效处理隐式且复杂的查询。受人类认知记忆过程的启发,MemVid 提出了一个四步工作流:记忆视频整体信息、根据记忆推理任务所需信息、检索关键时刻、以及聚焦检索结果以生成最终答案。 #### 核心方法论 MemVid 的工作流程包含四个基本步骤,由记忆器(memorizer)、检索器(retriever)和生成器(generator)三个关键模块驱动。本文主要关注优化记忆器模块,同时固定其他模块。 1. **记忆(Memorizing)**: 首先,通过一个记忆模型 $R$ 将视频 $V$ 的整体信息存储到记忆 $M$ 中。具体而言,原始视频 $V$ 被均匀下采样为 $T$ 帧的 $V' \in \mathbb{R}^{T \times H \times W \times 3}$。预训练的视觉编码器 $E_v$ 将 $V'$ 压缩为 token 状的视觉特征 $F = E_v(V') \in \mathbb{R}^{(T \times K) \times d_v}$,其中 $K$ 是每帧的 token 数量,$d_v$ 是特征深度。 为了使视觉特征具备推理能力,MemVid 使用一个因果 Transformer 基础的语言模型 $\Theta$ 将 $F$ 进一步处理成面向推理的 Key-Value (KV) 缓存。推理指令通过嵌入器 $E_q$ 转换为 token 嵌入 $\{x_1, \ldots, x_p\}$,视觉特征表示为 $\{x_{p+1}, \ldots, x_{p+T \times K+1}\}$。对于每个时间步 $t$,Key 和 Value 计算为 $K_t = W_k X_t$ 和 $V_t = W_v X_t$,并与之前的 KV 对连接,形成最终的记忆 $M = \{K, V\}$。这一步可用公式表示为 $M = R (V' | \phi)$,其中 $\phi$ 是记忆模型的参数。 2. **推理(Reasoning)**: 给定一个具体的问题 $Q$,记忆模型 $R$ 利用其记忆 $M$ 推理出任务导向的检索线索 $C$。这些线索 $C$ 包含了多个子线索 $\{c_1, \ldots, c_m\}$ 以及一个草稿答案 $c_a$。通过将记忆 $M$ 与问题嵌入 $E_q(Q)$ 动态拼接,记忆模型 $R$ 能够进行整体推理,以定位与问题相关的证据时刻。 $C = R (\text{Concat}(M; E_q(Q)))$ 3. **检索(Retrieving)**: 长视频被分割成固定时长、不重叠的时刻集合 $\mathcal{C} = \{s_1, \ldots, s_M\}$。对于 $C$ 中的每个检索线索 $c$,使用预训练的视频检索器计算其文本嵌入和每个时刻 $s_j$ 的嵌入。根据余弦相似度对时刻进行排名,并聚合前 $k$ 个最相关的时刻作为初步检索结果。 $S'' = \bigcup_{c \in C} \text{Top-}k(c |\mathcal{C}, \omega)$ 其中 $\omega$ 表示检索器参数。 4. **聚焦(Focusing)**: 最终,基于检索到的信息丰富的证据时刻 $S''$ 和原始问题 $Q$,生成最终答案 $A''$。检索到的时刻会进行时间上的重新排序并均匀采样,以满足下游生成模型的上下文限制。 $A'' = G(S'', Q | \theta)$ 其中 $G$ 是生成模型,$\theta$ 是其参数。 #### 课程学习框架 为了优化记忆器并在没有中间检索线索真值标签的情况下进行训练,MemVid 引入了一个课程学习框架: 1. **监督微调(Supervised Fine-Tuning, SFT)热身**: 首先,利用一个强大的 72B 参数的 VLM 作为教师模型,生成结构化的检索线索和草稿答案作为高质量的监督数据。这些数据经过筛选,只保留那些能导致下游正确答案的样本。记忆器通过在这些精炼数据集上进行下一词元预测(next-token prediction)来优化。 $L_{NTP}(\theta) = -\sum_{t=1}^T \log P_{\theta}(w_t | w_{ **重点内容强调**: - MemVid是首个将RAG与记忆机制结合用于长视频理解的工作。 - 提出的四步流程有效提升了模型对长视频中关键信息的捕捉与推理能力。 - 课程学习策略有助于模型逐步学习复杂任务,提升整体表现。 - 实验结果显示MemVid在多个权威LVU任务中具有领先优势。