2508.20900_OneRec-V2 Technical Report¶

首页: https://arxiv.org/abs/2508.20900
PDF: https://arxiv.org/pdf/2508.20900

总结 From Moonlight¶

三句总结

🚀 针对生成式推荐系统OneRec-V1的计算效率瓶颈和强化学习局限，OneRec-V2引入了精简的Lazy Decoder-Only架构，大幅减少94%的计算量和90%的训练资源，并成功扩展至8B参数模型。
🌟 该系统通过时长感知奖励塑造和自适应比率裁剪，有效利用真实用户反馈进行偏好对齐，克服了传统奖励模型的采样效率低和奖励作弊问题。
✅ 经快手和快手极速版的大规模A/B测试验证，OneRec-V2显著提升了App停留时长（0.467%/0.741%），同时平衡了多目标推荐并改善了用户互动指标。

总结

OneRec-V2 技术报告详细阐述了生成式推荐系统 OneRec-V2 的设计、实现及其在工业规模应用中的显著改进。OneRec-V2 旨在解决 OneRec-V1 在可扩展性和性能方面遇到的两个核心挑战：编码器-解码器架构中计算资源分配效率低下，以及纯粹依赖奖励模型进行强化学习所导致的采样效率低和奖励作弊（reward hacking）问题。

该论文主要贡献包括：

Lazy Decoder-Only Architecture（惰性仅解码器架构）：
- 设计原则与计算效率：OneRec-V1 的编码器-解码器架构中，上下文编码占据了绝大部分计算资源（例如，上下文长度为 512 时，97.66% 的 FLOPs 用于上下文编码），而目标项目生成仅占一小部分。为了解决这种计算资源分配不平衡的问题，OneRec-V2 引入了一种流线型的仅解码器架构。该架构将上下文视为静态条件信息，仅通过 Cross-Attention 机制访问，从而消除了编码器组件并简化了 Cross-Attention（移除了 Key/Value 投影层），大幅降低了计算成本。
- 整体架构：
  - Context Processor（上下文处理器）：该模块用于整合异构且多模态的用户行为信号，如用户画像和行为序列，将其转化为统一的上下文序列。该序列被处理成固定维度 \(d_{\text{context}} = S_{\text{kv}} \cdot L_{\text{kv}} \cdot G_{\text{kv}} \cdot d_{\text{head}}\)，其中 \(d_{\text{head}}\) 是注意力头维度，\(G_{\text{kv}}\) 是 Key-Value 头组数，\(S_{\text{kv}}\) 是 Key-Value 分离系数，\(L_{\text{kv}}\) 是 Key-Value 层数。上下文张量被划分为 \(L_{\text{kv}}\) 组 Key-Value 对，并进行 RMSNorm 归一化，生成层共享的 Key-Value 对 \(\{(k_0, v_0), \dots, (k_{L_{\text{kv}}-1}, v_{L_{\text{kv}}-1})\}\)。
  - Lazy Decoder Block（惰性解码器块）：每个目标项目通过语义分词器生成 3 个语义 ID。训练时，模型将 BOS 令牌和前 2 个语义 ID 作为输入序列。解码器由 \(N_{\text{layer}}\) 个堆叠的 Transformer 块组成，每个块包含 Lazy Cross-Attention、Causal Self-Attention 和 Feed-Forward Network（FFN）模块。
  - Lazy Cross-Attention：KV-Sharing（Key-Value 共享）：为了提高参数和计算效率，多个惰性解码器块共享由 Context Processor 生成的同一组 Key-Value 对。通过 \(l_{\text{kv}} = \lfloor l \cdot L_{\text{kv}}/N_{\text{layer}} \rfloor\) 计算对应 Key-Value 索引，确保相邻块共享上下文表示。此外，还采用统一的 Key-Value 表示 (\(v_l = k_l\))，进一步减少内存占用。
  - Lazy Cross-Attention：Grouped Query Attention (GQA)：GQA 允许多个 Query 头共享 Key-Value 头，显著减少了上下文表示的内存占用和注意力计算时的内存访问需求，从而提高了训练吞吐量。
  - 输出层：最后一个解码器块的隐藏表示经过 RMSNorm 和线性层，预测目标项目的语义 ID。
- 实验结果：Lazy Decoder-Only 架构使总计算量减少 94%，训练资源减少 90%，并成功将模型扩展到 80 亿参数。其收敛损失（convergence loss）与经验标度律（empirical scaling law）紧密吻合，表现出卓越的扩展效率。
Preference Alignment with Real-World User Interactions（与真实用户交互进行偏好对齐）：
- 背景与挑战：OneRec-V1 依赖奖励模型进行强化学习，但存在采样效率低（只能对一小部分用户进行在线采样）和奖励作弊的风险。OneRec-V2 引入基于真实用户反馈信号的强化学习，以解决这些问题。
- Duration-Aware Reward Shaping（时长感知奖励塑形）：
  - 为解决视频播放时间受视频时长偏差影响的问题，该机制通过将播放时间与用户历史中时长相似的视频进行比较来归一化播放时间。
  - 历史视频通过对数策略函数 \(F(d) = \lfloor\log_\beta(d + \epsilon)\rfloor\)（其中 \(\beta\) 是对数基数，\(\epsilon\) 是小常数）划分到不同的时长桶中。
  - 目标视频 \(i\) 的时长归一化参与度得分 \(q_i\) 定义为其播放时间 \(p_i\) 在对应时长桶 \(P_{u,b}\) 中的经验百分位数排名：\(q_i = \frac{|\{ p_j \in P_{u,b} | p_j \leq p_i \}|}{|P_{u,b}|}\)。
  - 基于 \(q_i\) 和用户明确的负反馈（如“不喜欢”），定义优势值 \(A_i\)：若 \(q_i\) 超过某个阈值（如前 25%）且无负反馈，则 \(A_i = +1\)；若有负反馈，则 \(A_i = -1\)；否则 \(A_i = 0\)。
- Reinforcement Learning：Gradient-Bounded Policy Optimization (GBPO)（梯度限制策略优化）：
  - GBPO 是一种新的强化学习方法，通过以下目标函数优化策略参数 \(\theta\)： \(J_{\text{GBPO}}(\theta) = - \mathbb{E}_{u \sim P(U), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{\pi_{\theta}(o_i|u)}{\pi'_{\theta_{old}}(o_i|u)} \cdot A_i \right]\) 其中 \(\pi'_{\theta_{old}}(o_i|u) = \begin{cases} \max(\pi_{\theta_{old}}, \text{sg}(\pi_\theta)), & A_i \geq 0 \\ \max(\pi_{\theta_{old}}, 1 - \text{sg}(\pi_\theta)), & A_i < 0 \end{cases}\)。
  - 主要优势：1) 充分利用所有样本的梯度，鼓励更丰富的探索；2) 通过 BCE 损失的梯度来限制强化学习的梯度，增强训练稳定性。
  - 梯度分析与对比：传统裁剪方法（如 GRPO/PPO、ECPO）在策略比率（policy ratio）为 1 时，对于负样本可能导致梯度爆炸，模型崩溃。GBPO 通过动态边界限制 \(\pi'_{\theta_{old}}\)，解决了传统方法无法完全避免的梯度不稳定问题，特别是在负样本情况下。
- 实验结果：基于用户反馈的强化学习（尤其是在引入 OneRec 自身生成的样本后）显著提升了“App Stay Time”、“Watch Time”以及“Like”、“Follow”、“Comment”等互动指标。与纯奖励模型相比，用户反馈信号更倾向于提升“App Stay Time”，而奖励模型则在互动指标上表现更强。混合策略能更好地平衡多目标推荐。
在线 A/B 测试：
- OneRec-V2 在快手/快手极速版（拥有 4 亿日活用户）上进行 A/B 测试，结果显示“App Stay Time”分别提升 0.467% 和 0.741%，同时平衡了多目标推荐，有效缓解了“跷跷板效应”。
- 在禁用缓存的严格测试中，互动指标（如点赞、关注、评论、转发）获得了 9.6% 到 29.2% 的显著提升。然而，也观察到冷启动视频播放量大幅下降（44.7% 和 36.7%）和内容簇密度增加（11.7% 和 7.9%）等生态层面问题。

结论、局限性与未来方向： OneRec-V2 通过 Lazy Decoder-Only 架构提高了模型可扩展性（已扩展到 80 亿参数），并通过结合 Duration-Aware Reward Shaping 和 GBPO 的真实用户反馈对齐机制，显著提升了用户体验指标。尽管取得了成功，但仍有改进空间，例如：继续探索更大模型的扩展潜力，以及开发更智能的奖励系统以直接优化长期用户价值，而非仅通过规则关联短长期收益。

Abstract¶

本研究提出 OneRec-V2，一个改进的工业级生成式推荐系统框架，旨在解决 OneRec-V1 在可扩展性和用户偏好对齐方面的两大挑战：

编码器-解码器架构的计算效率低下：OneRec-V1 中 97.66% 的计算资源用于上下文编码，而非生成任务，限制了模型扩展。
基于奖励模型的强化学习存在局限：包括采样效率低、代理奖励信号可能导致“奖励欺骗”问题。

为此，OneRec-V2 提出两项关键技术：

Lazy Decoder-Only 架构：
- 采用仅解码器结构，去除编码器瓶颈，简化交叉注意力机制。
- 计算量减少 94%，训练资源减少 90%，使模型成功扩展至 80 亿参数。
- 模型损失随参数规模增长呈现平滑下降，符合经验缩放定律。
基于真实用户交互的偏好对齐机制：
- 引入 Duration-Aware Reward Shaping（考虑视频时长的奖励塑造）和 Adaptive Ratio Clipping（自适应比例裁剪）。
- 更好地利用真实用户反馈，提升 App 停留时间。

在快手/快手极速版上的 A/B 测试表明，OneRec-V2 在多目标推荐中实现平衡优化，App 停留时间分别提升 0.467% 和 0.741%，无“跷跷板效应”。

1 Introduction¶

本节介绍了生成式AI在推荐系统领域的范式转变，并引出了OneRec-V2的提出背景与核心贡献。

1.1 生成式推荐的范式转变¶

生成式AI在多个领域引发了范式转变，推荐系统也不例外。传统的级联推荐架构虽然不断演进，但受限于多阶段设计带来的资源碎片化和目标不一致问题。生成式推荐将推荐问题重新定义为端到端的序列生成问题，从而实现了对最终目标的直接优化，提升了模型FLOPs利用率（MFU），并促进了推荐系统与大模型社区的融合。

1.2 OneRec-V1的局限性¶

尽管OneRec-V1在工业部署中取得了成功，但仍存在两个主要问题：

（1）编码器-解码器架构的计算效率问题¶

OneRec-V1采用编码器-解码器结构，用户历史行为序列由编码器处理，解码器通过交叉注意力机制使用这些信息。然而，尽管解码器参数更多，计算负载却主要集中在编码器上。实验显示，在上下文长度为512的情况下，编码器占用了97.66%的计算资源，而解码器仅占2.34%。这种资源分配不合理，限制了模型在相同计算预算下的扩展能力。

（2）基于奖励模型的强化学习的局限性¶

OneRec-V1使用基于奖励模型的强化学习进行策略优化，但存在两个问题：一是采样效率低，需要额外计算资源进行在线生成和评分；二是存在“奖励欺骗”风险，策略可能利用奖励模型的偏差而非真正提升效果。引入真实用户反馈有助于解决这些问题，使策略更贴近用户偏好。

1.3 OneRec-V2的核心贡献¶

本文提出OneRec-V2，通过两个关键技术解决上述问题：

1. Lazy Decoder-Only Architecture（懒解码器架构）¶

提出一种仅使用解码器的简化架构，去除编码器和交叉注意力机制中的键值投影层，显著降低计算需求。在相同计算预算下，该架构实现了：

计算资源减少94%，训练资源减少90%；
支持模型参数从0.5B扩展到8B；
收敛损失符合Hoffmann等人提出的理论缩放规律，为未来大模型发展提供理论与实践指导。

2. Preference Alignment with Real-World User Interactions（基于真实用户交互的偏好对齐）¶

提出一种综合的后训练框架，利用真实用户反馈信号优化策略：

Duration-Aware Reward Shaping（时长感知奖励塑造）：考虑视频长度差异，修正原始观看时长信号的偏差，使奖励更准确反映内容质量；
Adaptive Ratio Clipping（自适应比例裁剪）：降低训练方差，同时保证策略优化的收敛性。

实验表明，该方法显著提升了App停留时间（APP Stay Time），且在引入OneRec自身推荐流量分布后，线上效果进一步增强。

1.4 实验与评估¶

在快手/快手极速版App上进行大规模A/B测试（日活4亿用户），结果显示OneRec-V2相比OneRec-V1在App停留时间上分别提升了0.467%和0.741%，并在多个推荐目标之间实现了良好平衡，避免了“跷跷板效应”。

1.5 论文结构¶

后续章节安排如下：

第2章：详细介绍OneRec-V2的懒解码器架构及其预训练实验结果；
第3章：介绍基于真实用户交互的后训练方法；
第4章：通过线上A/B测试进行全面评估；
第5章：总结现有局限性并提出未来研究方向。

图2说明：OneRec-V2整体架构与后训练框架。左侧为懒解码器架构，右侧为偏好对齐过程。

2 Lazy Decoder-Only Architecture¶

2.1 设计原则¶

本节回顾了生成式推荐系统架构的演变路径，重点介绍了OneRec模型架构的设计理念。

核心问题¶

传统推荐系统训练样本组织方式（按时间顺序的展示）存在冗余，因为每个展示样本都独立训练相同的模式（如A→B）。
用户中心组织方式虽然减少了冗余，但存在时间数据泄露和流行度偏差的风险。

解决方案¶

提出仅训练最新展示项的策略，即只对最新展示的物品计算损失，其余物品不参与训练目标预测。
通过对比不同架构的计算效率，发现编码器-解码器和传统解码器架构存在严重计算浪费：超过97%的计算资源用于不直接参与损失计算的token。

关键定义¶

上下文编码（Context Encoding）：处理用户上下文特征的计算，包括编码器中的变换和解码器交叉注意力中的投影。
目标解码（Target Decoding）：处理目标物品语义token的计算，包括自注意力、前馈网络和交叉注意力中的查询与输出变换。

懒惰解码器的优势¶

计算效率高：几乎100%的计算资源用于目标token的解码。
内存消耗低：避免了冗余计算，适合大规模模型扩展。

2.2 整体架构¶

本节介绍了懒惰解码器架构的核心设计，其核心创新包括：

1. 懒惰解码器架构¶

与传统架构不同：不使用编码器，而是将上下文作为静态条件信息，仅通过交叉注意力访问。
优势：消除冗余计算，同时保留模型捕捉用户-物品交互的能力。

2. 高效的懒惰交叉注意力机制¶

无键值投影：减少计算和内存开销。
结合Grouped Query Attention (GQA)：显著降低内存占用，支持处理长用户历史。

2.2.1 上下文处理器（Context Processor）¶

功能：将异构的用户行为信号（如用户画像、行为序列）统一处理为上下文表示。
关键公式：
- 上下文维度：\( d_{\text{context}} = S_{\text{kv}} \cdot L_{\text{kv}} \cdot G_{\text{kv}} \cdot d_{\text{head}} \)
- 生成键值对：通过RMSNorm归一化处理，支持键值共享（Skv=1）或分离（Skv=2）。

2.2.2 懒惰解码器块（Lazy Decoder Block）¶

Tokenizer¶

每个目标物品生成3个语义ID，训练时使用前2个ID和BOS token组成输入序列。

Block结构¶

包含三个主要组件：交叉注意力、自注意力、前馈网络。
使用RMSNorm提升训练稳定性。
深层模块中引入Mixture-of-Experts (MoE)，提升模型容量同时保持计算效率。

懒惰交叉注意力：Grouped Query Attention (GQA)¶

查询头数量 \( H_q \) 远大于键值组数 \( G_{\text{kv}} \)，显著降低内存占用。
支持更长的上下文和更大的批量处理。

输出层¶

最后一层解码器输出经过RMSNorm和线性层，预测每个语义ID。

2.3 实验结果¶

本节通过多维度实验验证了懒惰解码器架构的有效性，包括架构对比、键值共享、GQA优化和模型扩展性分析。

2.3.1 架构对比¶

对比对象：编码器-解码器、传统解码器、懒惰解码器。
评估指标：生成损失（平均三个语义token）。
结果：
- 懒惰解码器在计算资源和内存占用显著降低的情况下，损失表现与传统架构相当。
- 例如，1B参数模型下，懒惰解码器仅需18.89 GFLOPs，而传统解码器需634.83 GFLOPs。

2.3.2 键值共享（KV-Sharing）¶

参数设置：Lkv（键值层数）、Skv（键值是否共享）。
结果：
- 即使在高度共享（Lkv=18）的情况下，损失仍保持稳定（3.27）。
- Skv=1（共享）与Skv=2（分离）性能相近，但共享显著降低计算和内存开销。

2.3.3 Grouped Query Attention (GQA)¶

参数设置：Gkv（键值组数）。
结果：
- GQA在不同组数下均能保持相近的损失（3.27~3.28），但内存占用显著下降。
- 例如，Gkv=1时，键值大小从94M降至7M。

2.3.4 模型扩展性分析¶

密集模型扩展¶

模型规模：从0.1B到8B参数。
结果：
- 损失随模型规模增大而下降（从3.57降至3.19）。
- 扩展规律符合理论缩放定律：\( \hat{L}(N) = E + \frac{A}{N^\alpha} \)，其中 \( E=3.13, A=3660, \alpha=0.489 \)。

稀疏MoE模型¶

配置：总参数4B，每token激活0.5B。
结果：
- MoE模型在保持计算效率的同时，损失为3.22，优于2B密集模型。
- 证明稀疏架构在工业级推荐系统中具有良好的性价比。

总结¶

本章系统介绍了懒惰解码器架构的设计理念、结构创新和实验验证。其核心优势包括：

高效计算：几乎100%的计算资源用于目标token解码。
低内存占用：通过键值共享和GQA显著降低内存需求。
可扩展性强：支持从0.1B到8B的模型扩展，并在稀疏MoE架构下实现更优的性能-成本平衡。

该架构为生成式推荐系统提供了高效、可扩展、实用性强的解决方案。

3 Preference Alignment with Real-World User Interactions¶

本节介绍 OneRec-V2 的后训练阶段。监督微调（SFT）阶段与 OneRec-V1 相同，使用流式曝光数据进行在线 ℒGen 损失训练，与预训练阶段使用的损失函数一致。其主要目的是捕捉用户的实时兴趣变化，同时防止模型偏离预训练模型。在 OneRec-V1 中，强化学习（RL）阶段仅基于奖励模型。而在 OneRec-V2 中，我们引入了基于用户反馈信号的 RL。

3.1 基于用户反馈信号的强化学习¶

基于用户反馈定义奖励可以避免“奖励欺骗”问题，且不需要额外的模型计算开销。然而，它仍面临如何结合多个目标以及正样本稀疏等挑战。在短视频推荐场景中，视频播放时长是最密集的反馈信号，且与最重要的线上指标（如 App 停留时间和 LT7）密切相关。因此，我们设计了一个简单但有效的基于播放时长的奖励机制。

3.1.1 时长感知的奖励塑造¶

核心内容：
由于视频播放时长本身受视频总时长的影响，我们提出了“时长感知的奖励塑造”机制。该方法通过将视频按时长分桶（使用对数策略），并计算目标视频在对应桶中的播放时长百分位，作为用户的偏好评分。具体步骤如下：

使用函数 ℱ(d) 将视频时长 d 映射到离散的桶索引 b。
对每个用户 u，构建其历史播放记录 Hu，并按桶划分播放时长分布 Pu,b。
对目标视频 i，计算其在对应桶中的百分位 qi。
根据 qi 和用户显式负反馈（如“不喜欢”）确定正负样本。

该方法有效过滤高质量正样本，同时结合显式负反馈信号，提升了用户偏好建模的准确性。

3.1.2 强化学习¶

梯度有界策略优化（GBPO）¶

核心内容：
为提升强化学习的稳定性和探索能力，我们提出了一种新的 RL 方法：GBPO（Gradient-Bounded Policy Optimization）。其目标函数如下：

\[ \mathcal{J}_{GBPO}(\theta) = -\mathbb{E}_{u \sim P(U), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{\pi_\theta(o_i|u)}{\pi'_{\theta_{old}}(o_i|u)} \cdot A_i \right] \]

其中，\(\pi'_{\theta_{old}}\) 是根据优势值 Ai 动态调整的旧策略。

GBPO 的优势：

全样本利用：保留所有样本的梯度，鼓励模型进行多样化探索。
梯度有界稳定：将 RL 梯度与 BCE 损失梯度绑定，提升训练稳定性。

与现有剪裁方法的对比¶

传统方法（如 PPO、ECPO）通过剪裁策略比来防止训练过于激进，但存在以下问题：

负样本梯度爆炸：缺乏对负样本策略比的上界限制，易导致模型崩溃。
样本丢弃过多：如 Dual-clip、ECPO 等方法会丢弃大量负样本，影响收敛速度。

相比之下，GBPO 不进行剪裁操作，而是通过动态绑定旧策略来限制梯度，从而在保留更多样本的同时提升训练稳定性。

梯度分析¶

对于负样本，传统方法中策略比为 1 时仍可能导致梯度爆炸。而 BCE 损失在负样本上的梯度更稳定，因此 GBPO 通过将 RL 梯度与 BCE 梯度绑定，有效缓解了这一问题。

3.1.3 实验¶

实验设置¶

使用 0.5B 模型和 512 上下文长度进行快速验证。
基线为 OneRec-V1。
设计两个实验组：
- w/o OneRec 样本：仅使用传统推荐管道生成的样本。
- w/ OneRec 样本：引入 OneRec 自生成样本，进行 on-policy 强化学习。

结果分析¶

仅使用传统样本：显著提升 App Stay Time 和 Watch Time 等时长相关指标，但部分交互指标（如 Video View）下降。
引入 OneRec 样本：几乎所有指标均有显著提升，尤其是 Video View 转为正向，表明用户反馈驱动的 RL 可实现自我迭代优化，提升用户体验。

3.2 用户反馈信号 vs 奖励模型¶

3.2.1 奖励模型的局限性¶

OneRec-V1 的 RL 依赖于奖励模型，但存在以下问题：

采样概率受限：资源限制下仅对 1% 用户进行 on-policy roll-out。
奖励欺骗风险：奖励模型易被“欺骗”，无法真实反映用户偏好。

相比之下，用户反馈信号直接反映真实用户行为，避免了奖励欺骗问题。随着 OneRec 的全面部署，现在可以更有效地利用这些信号进行自我优化。

3.2.2 实验¶

实验设置¶

设置三组实验进行对比：

Reward Model：基于奖励模型的 RL。
User Feedback Signals：基于用户反馈的 RL。
Hybrid：同时使用奖励模型和用户反馈信号。

结果分析¶

基于奖励模型：OneRec-V2 显著优于 OneRec-V1，验证了 Lazy Decoder 架构的优势。
基于用户反馈：在 App Stay Time 上表现更优，而奖励模型更偏向提升交互指标。
混合策略（Hybrid）：虽然各项指标提升不如单一策略显著，但整体平衡性更好，表明多样化奖励信号的重要性。

总结¶

OneRec-V2 在后训练阶段引入了基于用户反馈信号的强化学习机制，通过“时长感知的奖励塑造”和“梯度有界策略优化（GBPO）”提升了模型的稳定性和性能。实验表明，用户反馈信号相比奖励模型更能反映真实用户偏好，且结合自生成样本可实现自我迭代优化。未来将进一步研究奖励信号的多样性和准确性。

4 Online A/B Test¶

本节介绍了 OneRec-V2 在快手两个主要短视频场景中的线上 A/B 测试结果：快手主站信息流和快手极速版信息流。这两个场景服务了 4 亿日活跃用户，是平台流量最高的环境。

实验设置¶

实验组流量：5%
观察周期：一周
模型参数：10 亿参数版本，上下文长度为 3000，beam size 为 512
推理硬件：L20 GPU
性能指标：延迟 36ms，模型浮点利用率（MFU）62%
简化设计：为降低系统复杂度，该版本仅使用了用户反馈信号（User Feedback Signals）

核心评估指标¶

App 停留时长（App Stay Time）：衡量用户整体使用时长
7 日用户留存率（LT7）

实验结果显示，OneRec-V2 在两个平台上均取得了显著提升。此外，用户互动指标（如点赞、关注、评论等）也全面增长，表明该模型能够有效引导多任务推荐系统达到更平衡的状态，缓解不同目标之间的“跷跷板效应”。

进一步验证：关闭缓存的实验¶

为了进一步验证效果，作者在 1% 的独立实验组中关闭缓存机制，所有请求均调用 OneRec-V2（详见附录 D）。

结果亮点：

各项用户互动指标提升显著，如点赞、关注、评论、转发等，提升幅度在 9.6% 到 29.2% 之间
生态影响：
- 冷启动视频的曝光量下降明显（快手主站下降 44.7%，极速版下降 36.7%）
- 视频内容的聚类密度上升

总结重点¶

OneRec-V2 在线上环境中显著提升了用户参与度和互动行为，验证了其在多任务推荐系统中的有效性。但同时也带来了生态层面的变化，如冷启动视频曝光减少和内容集中度上升，这提示在模型部署时需兼顾推荐效果与平台生态健康。

5 Conclusion, Limitations, and Future Directions¶

本章总结了 OneRec-V2 的主要成果，并分析了其局限性与未来发展方向。整体结构如下：

5.1 模型架构改进与扩展性分析¶

OneRec-V2 在 OneRec-V1 的基础上进行了架构优化。V1 版本虽然在解码器中使用了 MoE（混合专家）机制来支持大规模参数，但由于上下文编码阶段的计算资源消耗过大，限制了模型的进一步扩展。为此，V2 提出了 “懒解码器”架构，将计算重心从编码阶段转移到解码阶段，从而实现了模型规模的显著提升（目前已扩展至 8B 参数）。

此外，作者通过实验验证了模型在参数从 0.1B 扩展到 8B 的过程中，损失函数持续下降，并且与 Hoffmann 等人（2022）提出的经验扩展定律高度吻合。这一结果不仅验证了当前架构的有效性，也表明未来继续扩展模型和优化架构仍有提升空间。

5.2 奖励系统优化与用户反馈对齐¶

在奖励系统方面，OneRec-V2 不再仅依赖 V1 中的奖励模型，而是引入了真实用户反馈信号，以更好地对齐用户长期偏好。通过创新设计，系统成功将短期观看时长与长期用户满意度建立了联系，并结合 GBPO（Generalized Behavior Policy Optimization）方法，实现了训练过程的高度稳定性。

A/B 测试结果验证了该框架的有效性。然而，目前的机制仍依赖人工设定的规则来连接短期与长期回报，未来的目标是让模型能够自主优化长期价值，实现自我强化。

5.3 应用效果与未来展望¶

OneRec-V2 不仅在快手平台的视频推荐中实现了盈利，还被部署到多个业务场景中，带来了显著收益（如 Wei et al., 2025 所示）。作者认为，该系统具有良好的可扩展性，未来有望通过更多研究者和工程师的迭代、验证与优化，实现更广泛的应用与性能提升。

总结¶

本章节重点在于：

架构创新：提出懒解码器结构，显著提升模型扩展能力；
奖励机制优化：引入真实用户反馈，提升推荐系统的长期价值对齐；
实证验证：模型扩展符合经验定律，训练稳定且业务效果显著；
未来方向：继续探索模型扩展、自主优化长期价值，以及系统在更多场景的应用潜力。

非重点内容如引用格式、文献标注等未做详细展开。

Appendix¶

附录（Appendix）通常是论文中用于补充正文内容的辅助部分，包含与研究相关但不适合放在主体章节中的信息。由于你提供的内容仅为“Appendix”标题，没有具体文本内容，因此无法提供详细总结。

如果你有附录的具体内容（如数据表、代码、公式推导、调查问卷、详细方法说明等），可以提供文本，我将根据上述要求为你做详细结构化讲解与总结。

Appendix A Contributions¶

本节内容主要列出了在该项目或论文中做出贡献的作者名单，按照角色分为“核心贡献者（Core Contributors）”和“贡献者（Contributors）”两个部分，每个部分内的作者按名字首字母顺序排列。

核心贡献者（Core Contributors）¶

这一部分列出的是对项目或论文有核心贡献的作者，共26人，包括：Guorui Zhou、Hengrui Hu、Hongtao Cheng、Huanjie Wang、Jiaxin Deng、Jinghao Zhang、Kuo Cai、Lejian Ren、Lu Ren、Liao Yu、Pengfei Zheng、Qiang Luo、Qianqian Wang、Qigen Hu、Rongzhou Zhang、Rui Huang、Ruiming Tang、Shiyao Wang、Shujie Yang、Tao Wu、Wuchao Li、Xinchen Luo、Xingmei Wang、Yi Su、Yunfan Wu、Zexuan Cheng、Zhanyu Liu、Zixing Zhang。

重点内容：
这些作者是项目或论文的主要推动者，承担了关键的研究、设计或撰写任务。

贡献者（Contributors）¶

这一部分列出了对项目或论文有其他重要支持的贡献者，共74人，包括：Bin Zhang、Boxuan Wang、Chaoyi Ma、Chengru Song、Chenhui Wang、Chenglong Chu、Di Wang、Dongxue Meng、Dunju Zang、Fan Yang、Fangyu Zhang、Feng Jiang、Fuxing Zhang、Gang Wang、Guowang Zhang、Han Li、Honghui Bao、Hongyang Cao、Jiaming Huang、Jiapeng Chen、Jiaqiang Liu、Jinghui Jia、Kun Gai、Lantao Hu、Liang Zeng、Qiang Wang、Qidong Zhou、Shengzhe Wang、Shihui He、Shuang Yang、Siyang Mao、Sui Huang、Tiantian He、Tingting Gao、Wei Yuan、Xiao Liang、Xiaoxiao Xu、Xugang Liu、Yan Wang、Yang Zhou、Yi Wang、Yiwu Liu、Yue Song、Yufei Zhang、Yunfeng Zhao、Zhixin Ling、Ziming Li。

重点内容：
这些作者在数据收集、实验支持、技术实现等方面提供了重要帮助。

总结：
本附录完整列出了项目或论文的贡献者名单，分为核心贡献者和一般贡献者两类，分别按名字首字母排序。核心贡献者承担了主要研究任务，而一般贡献者则在辅助工作中发挥了重要作用。

Appendix B Computational Complexity of Different Architecture¶

初步介绍¶

在实际推荐系统中，通常会同时为用户推荐多个项目。为了优化计算效率，快手采用了共享上下文压缩技术：当为同一用户推荐k个项目时，共享的用户信息（如用户画像、历史行为）只需处理一次，即可在所有推荐项目中复用。这使得每个项目的有效上下文长度从N减少到约N/k。在快手系统中，k=5。

Transformer模块的主要计算部分包括：

前馈网络（FFN）
注意力投影（Wq, Wk, Wv, Wo）
注意力分数计算

它们的计算复杂度分别为：

FFN: O(L·d_model·d_ff) ≈ O(L·4d_model²)
注意力投影: O(L·4d_model²)
注意力分数: O(L²·d_model)

其中 L 是处理的token数量，d_model 是模型隐藏维度。FFN和注意力投影的复杂度均可近似为 O(L·D)，D 为模块参数量。

编码器-解码器架构¶

分析一个编码器和解码器各含0.5B参数的模型（总1B参数）在训练时的计算需求（上下文长度压缩为N/5）：

模块	计算量	公式
上下文转换（编码器）	0.6N GFLOPs	6 × 0.5B × N/5
上下文投影（跨注意力）	0.06N GFLOPs	6 × 0.05B × N/5
上下文解码（编码器+跨注意力）	0.66N GFLOPs	0.6N + 0.06N
目标解码（解码器内部）	8.1 GFLOPs	6 × 0.45B × 3
总计算量	0.66N + 8.1 GFLOPs	-

说明：

系数6来自乘加操作（×2）和前向+反向传播（×3）。
跨注意力中的 Wk 和 Wv 属于解码器参数，约占解码器总参数的10%（即0.05B）。
忽略了注意力分数的计算，因其在实际中远小于FFN和投影操作。

具体验证：

模型配置：9层编码器+9层解码器，d_model=1792。
注意力分数计算量：
- 编码器：3.8N² KFLOPs
- 解码器：290N KFLOPs
当 N=512 时，这些值远小于FFN和投影操作，因此可忽略。

简单解码器-only 架构¶

对于一个参数总量为1B的解码器-only 模型，处理 N/5 + 3 个token（使用因果注意力掩码）：

模块	计算量	公式
上下文解码	1.2N GFLOPs	6 × 1B × N/5
目标解码	18 GFLOPs	6 × 1B × 3
总计算量	1.2N + 18 GFLOPs	-

说明：

与编码器-解码器相比，解码器-only 架构的计算量更高，尤其在上下文解码部分（1.2N vs 编码器-解码器的0.66N）。
这表明在训练效率方面，编码器-解码器架构更具优势。

总结¶

共享上下文压缩显著降低了每个项目的有效上下文长度，从而减少计算量。
Transformer 的主要计算瓶颈在于 FFN 和注意力投影，而注意力分数计算在实际中可忽略。
在相同参数量下，编码器-解码器架构比 解码器-only 架构在训练时具有更低的总计算量，更适合快手推荐系统的高效训练需求。

Appendix C Empirical Results¶

本节通过实验研究了OneRec-V2模型的模型规模、计算预算与训练损失之间的关系。

图12：生成训练损失曲线与计算量的关系¶

图12展示了不同规模模型在总计算量（以FLOPs为单位）变化下的平滑生成训练损失曲线。结果显示，大模型需要更多的计算资源才能达到相同的损失值，但最终能收敛到更低的损失水平。这一现象与大语言模型领域中的观察一致。

图11：不同交叉注意力配置的训练损失对比¶

该图比较了两种注意力机制优化策略对训练损失的影响：

（a）键值共享（Key-value sharing）：对收敛损失几乎没有影响，但显著提升了计算效率。
（b）分组查询注意力（Grouped query attention）：同样对损失影响很小，但提高了计算效率。

这两项策略都表明，在不牺牲模型性能的前提下，可以有效提升训练效率。

总结¶

本节通过实验验证了模型规模与训练损失之间的关系，并展示了两种注意力优化策略在保持模型性能的同时显著提升计算效率的能力。重点在于：大模型虽然计算需求高，但收敛更好；注意力结构优化有助于提升效率而不影响收敛。

Appendix D Online Performance with Caching Disabled¶

内容概述¶

本节主要分析在禁用缓存的情况下，OneRec-V2 在线性能的表现。实验设置为：分配额外的 1% 流量作为实验组，其中所有流量均请求 OneRec-V2 模型。实验结果见表 9。

重点内容讲解¶

1. 关键用户参与指标的显著提升¶

在所有流量均使用 OneRec-V2 的情况下，用户互动相关指标（如点赞、关注、评论、转发）均有显著提升：

提升幅度在 9.6% 到 29.2% 之间，不同平台表现略有差异。
观看时长和应用停留时间也有小幅增长。

2. 生态系统层面的负面影响¶

尽管用户互动增强，但部分生态系统指标出现明显问题：

冷启动视频播放量显著下降（快手下降 44.7%，快手 Lite 下降 36.7%）。
簇密度明显上升（快手上升 11.7%，快手 Lite 上升 7.9%），表明内容多样性可能降低，推荐趋于集中化。

表 9：OneRec-V2 相比 OneRec-V1 的在线性能变化（禁用缓存）¶

平台	指标	OneRec-V2 改善幅度
快手	应用停留时间	+0.405%
	观看时长	+0.513%
	视频播放量	+0.938%
	用户互动（点赞、关注、评论等）	+9.640% ~ +29.249%
	冷启动视频播放量	-44.704%
	簇密度	+11.692%
快手 Lite	应用停留时间	+0.958%
	观看时长	+2.456%
	视频播放量	-1.121%
	用户互动（点赞、关注、评论等）	+12.783% ~ +30.957%
	冷启动视频播放量	-36.730%
	簇密度	+7.933%

总结¶

禁用缓存后，OneRec-V2 在用户互动方面表现优异，但对冷启动内容推荐和内容多样性产生了负面影响。这提示在后续优化中需平衡用户互动与生态健康之间的关系。

2508.20900_OneRec-V2 Technical Report¶

总结 From Moonlight¶

Abstract¶

1 Introduction¶

1.1 生成式推荐的范式转变¶

1.2 OneRec-V1的局限性¶

（1）编码器-解码器架构的计算效率问题¶

（2）基于奖励模型的强化学习的局限性¶

1.3 OneRec-V2的核心贡献¶

1. Lazy Decoder-Only Architecture（懒解码器架构）¶

2. Preference Alignment with Real-World User Interactions（基于真实用户交互的偏好对齐）¶

1.4 实验与评估¶

1.5 论文结构¶

2 Lazy Decoder-Only Architecture¶

2.1 设计原则¶

核心问题¶

解决方案¶

关键定义¶

懒惰解码器的优势¶

2.2 整体架构¶

1. 懒惰解码器架构¶

2. 高效的懒惰交叉注意力机制¶

2.2.1 上下文处理器（Context Processor）¶

2.2.2 懒惰解码器块（Lazy Decoder Block）¶

Tokenizer¶

Block结构¶

懒惰交叉注意力：键值共享（KV-Sharing）¶

懒惰交叉注意力：Grouped Query Attention (GQA)¶

输出层¶

2.3 实验结果¶

2.3.1 架构对比¶

2.3.2 键值共享（KV-Sharing）¶

2.3.3 Grouped Query Attention (GQA)¶

2.3.4 模型扩展性分析¶

密集模型扩展¶

稀疏MoE模型¶

总结¶

3 Preference Alignment with Real-World User Interactions¶

3.1 基于用户反馈信号的强化学习¶

3.1.1 时长感知的奖励塑造¶

3.1.2 强化学习¶

梯度有界策略优化（GBPO）¶

与现有剪裁方法的对比¶

梯度分析¶

3.1.3 实验¶

实验设置¶

结果分析¶

3.2 用户反馈信号 vs 奖励模型¶

3.2.1 奖励模型的局限性¶

3.2.2 实验¶

实验设置¶

结果分析¶

总结¶

4 Online A/B Test¶

实验设置¶

核心评估指标¶

进一步验证：关闭缓存的实验¶

总结重点¶

5 Conclusion, Limitations, and Future Directions¶

5.1 模型架构改进与扩展性分析¶

5.2 奖励系统优化与用户反馈对齐¶

5.3 应用效果与未来展望¶

总结¶

Appendix¶

Appendix A Contributions¶

核心贡献者（Core Contributors）¶

贡献者（Contributors）¶

Appendix B Computational Complexity of Different Architecture¶

初步介绍¶

编码器-解码器架构¶

简单解码器-only 架构¶

总结¶

Appendix C Empirical Results¶

图12：生成训练损失曲线与计算量的关系¶

图11：不同交叉注意力配置的训练损失对比¶

总结¶

Appendix D Online Performance with Caching Disabled¶

内容概述¶

重点内容讲解¶

1. 关键用户参与指标的显著提升¶