生成式推荐：从范式变革到工业落地的综述与展望

Generative Recommendation: A Survey from Paradigm Shift to Industrial Deployment

第 1 章引言（Introduction） 传统推荐系统的结构性局限；生成式范式的核心优势；发展简史（2022–2026）；本综述的结构与贡献。
第 2 章背景与问题定义（Background & Problem Formulation） 推荐系统基本范式回顾；级联架构的形式化描述；生成式推荐的统一问题定义；与生成式检索（Generative Retrieval）的关系。
第 3 章技术演进脉络（Evolution Timeline） 按时间线梳理 2022–2026 年的关键里程碑，包含范式提出、统一建模扩展、行为序列优先、工业部署爆发、开放生态建设五个阶段。
第 4 章核心技术分类（Core Technical Taxonomy）
- 4.1 将推荐统一为文本/序列生成（Recommendation as Generation）
- 4.2 物品表示与语义 ID 设计（Item Tokenization & Semantic IDs）
- 4.3 基于 LLM 的自回归推荐（LLM-based Autoregressive Recommendation）
- 4.4 检索与排序的统一（Unified Retrieval-Ranking）
- 4.5 对齐优化与强化学习（Alignment & Reinforcement Learning）
- 4.6 基于扩散模型的推荐（Diffusion-based Recommendation）
- 4.7 非自回归生成式推荐（Non-Autoregressive Generative Recommendation）
第 5 章工业部署实践（Industrial Deployment） 延迟与吞吐优化；超大规模物品空间处理；在线学习与增量更新；典型案例分析（美团 MTGR、YouTube PLUM、快手 OneRec、大规模广告系统）；部署决策框架（成本效益分析、分规模部署建议、TCO 对比、AB 测试方法论与统计考量）。
第 6 章跨领域技术借鉴（Cross-domain Inspirations） 从 NLP 生成模型、计算机视觉 tokenization、强化学习与 Agent 系统中汲取的方法论迁移与启示。
第 7 章开放问题与未来方向（Open Problems & Future Directions） 范式内在局限批判（自回归延迟-质量权衡、语义 ID 信息损失、单模型运维风险、竞争范式对比缺失）；推荐世界模型；Scaling Law；Test-time Compute；多模态 Tokenization；个性化 Token Vocabulary；持续学习与遗忘控制；广告生成-拍卖联合优化；安全性、公平性与可解释性；AR-NAR 混合生成式推荐；方向交叉关系分析。
第 8 章结论（Conclusion） 全文总结与展望。
参考文献（References）

第 1 章引言

1.1 传统推荐系统的结构性局限

现代工业推荐系统几乎普遍采用多阶段级联架构（multi-stage cascaded architecture）：候选生成（candidate generation）从数十亿量级的物品库中召回数百至数千个候选，粗排（pre-ranking）进行初步筛选，精排（ranking）对候选进行细粒度打分，最终由重排序（re-ranking）综合业务策略输出展示列表。这一架构自 2016 年 YouTube 深度推荐网络 [Covington et al., 2016] 提出以来，已成为业界事实标准，在搜索、广告、信息流、短视频等场景中广泛部署。

然而，级联架构在取得巨大工程成功的同时，也暴露出若干深层次的结构性缺陷：

信息损失与信息漏斗效应。 级联系统中的每一级都是信息瓶颈。召回阶段为控制计算量，通常依赖轻量级模型（如双塔模型）从全量物品空间中筛选候选，这一过程不可避免地丢弃了大量潜在优质候选——它们可能在精排模型看来具有高价值，但因召回模型的表达能力有限而被系统性遗漏。更严重的是，这种信息损失是单向且不可逆的：下游阶段无法”召回”上游已丢弃的候选。在典型的工业推荐系统中，召回阶段的候选覆盖率远低于理想水平，意味着相当比例的潜在最优推荐结果从未进入排序阶段 [Zheng et al., 2025]。

任务割裂与重复建模。 级联系统中，每个阶段通常独立训练各自的模型，使用不同的特征工程、训练目标和优化策略。这导致对同一用户行为序列的重复编码：召回模型学习一套用户表示，排序模型学习另一套，重排序可能还有第三套。这些表示之间缺乏共享与一致性约束，不仅造成计算资源浪费，更导致各阶段的优化方向可能相互矛盾——召回阶段优化多样性，排序阶段优化点击率，重排序阶段优化生态指标，三者之间缺乏统一的优化目标。

端到端优化困难。 由于各阶段之间存在不可微的筛选操作（如 top-K 截断），梯度无法从最终业务目标回传到上游模型。这意味着全局最优解无法通过局部阶段性贪心获得。尽管业界已提出知识蒸馏、联合训练等缓解方案，但本质性的梯度断裂问题始终未能在级联框架内彻底解决。

冷启动与长尾困境。 传统推荐系统严重依赖物品的原子 ID（atomic ID）表示。每个物品被映射为一个独立的嵌入向量，该向量的学习完全依赖该物品自身的交互数据。对于新物品（cold-start items）和长尾物品（long-tail items），由于交互数据稀缺，其嵌入质量极差，导致它们在召回阶段几乎不可能被检索到。即使这些物品具有丰富的内容属性（标题、描述、图像），传统的 ID-based 范式也难以有效利用这些信息。

1.2 生成式范式的核心优势

生成式推荐（Generative Recommendation）的核心思想，是将推荐任务从”在候选集中选择”重新定义为”从用户上下文中生成”：模型不再对预先筛选的候选物品逐个打分，而是根据用户的历史行为、上下文信息和任务指令，直接生成推荐结果的标识符或表示。值得强调的是，这里的”生成”不限于自回归（autoregressive）解码——扩散模型（diffusion models）通过迭代去噪生成用户-物品交互分布，非自回归模型（non-autoregressive models）通过并行解码实现低延迟推荐生成，都是生成式推荐范式的重要技术路线（详见 4.6、4.7 节）。

这一范式转换带来了三方面的根本性优势：

统一建模：一个模型替代整条流水线。 生成式推荐将召回、排序、解释等原本分离的子任务统一到一个序列生成模型中。用户行为序列被编码为输入 token 序列，推荐结果则作为输出 token 序列被自回归地生成。这种统一不仅消除了级联架构中的信息损失问题——所有信息在同一个模型的隐状态空间中被保留和利用——更从根本上解决了任务割裂问题。M6-Rec [Cui et al., 2022] 率先证明，一个预训练语言模型可以同时处理物品推荐、评分预测、解释生成等多种推荐任务，开创了”推荐即生成”的研究范式。P5 [Geng et al., 2023] 进一步将这一思路系统化，提出”Recommendation as Language Processing”框架，用个性化提示（personalized prompts）统一表达不同推荐任务。

端到端优化：梯度贯穿全过程。 在生成式框架中，从用户表示到推荐结果的整个过程是可微的。模型可以直接以最终业务目标（如用户满意度、长期价值）为训练信号，梯度可以从输出端回传到模型的每一层。这使得全局优化成为可能，而不再受限于级联系统中的阶段性局部最优。OneRec [Zhou et al., 2025] 的工业实践表明，端到端生成式架构配合强化学习优化，可以在生产环境中取得显著优于传统级联系统的在线效果。

跨任务迁移与语义融合。 生成式推荐通过语义化的物品表示（如语义 ID、文本描述 token 化）取代原子 ID，使得模型能够利用物品的内容语义进行推理。这不仅缓解了冷启动和长尾问题——新物品可以通过其内容属性获得有意义的表示——更为跨域、跨任务的知识迁移提供了自然的桥梁。TIGER [Rajput et al., 2023] 开创性地提出将推荐系统重构为生成式检索（generative retrieval）问题，用语义 ID（semantic IDs）作为物品的生成目标，通过 Seq2Seq Transformer 直接从用户行为序列生成物品标识符，避免了传统向量召回中的近似最近邻检索阶段。这一工作为后续大量语义 ID 生成式推荐研究奠定了基础，包括 LC-Rec [Zheng et al., 2023] 对语义空间与协同信号的对齐学习，以及 Semantic IDs Handbook [Ju et al., 2025] 对实践方法论的系统总结。

1.3 发展简史（2022–2026）

生成式推荐在短短四年内经历了从概念验证到工业部署的快速演进（图 1 为里程碑时间线）。各阶段的代表性工作、技术创新细节及递进关系详见第 3 章，此处仅勾勒高层时间线：

2022 年（范式提出）： M6-Rec 和 P5 首次将推荐定义为序列生成任务，建立了”推荐即生成”的概念可行性。
2023 年（技术井喷）： TIGER 引入语义 ID 与生成式检索，LC-Rec 弥合语义-协同鸿沟，GenRec/GPTRec 等验证了多条自回归生成路线。
2024 年（理论奠基）： HSTU 构建万亿参数推荐模型并首次验证 compute scaling law，推动方向从”借用语言模型”走向”构建推荐专用基础模型”。
2025 年（工业部署爆发）： 美团 MTGR、YouTube PLUM、快手 OneRec/OxygenREC 将生成式推荐部署到亿级用户场景，工程方法论趋于成熟。
2026 年（开放生态）： OpenOneRec 发布首个开放基础模型生态（1.7B/8B 模型、RecIF-Bench 基准），推动从闭源实践走向开放社区研究。

1.4 本综述的结构与贡献

本综述旨在对生成式推荐这一快速发展的领域进行系统性的梳理、分类和展望。与已有综述相比，本文的独特贡献包括：

完整的时间线视角：系统追踪了 2022–2026 年间生成式推荐从概念提出到工业部署的完整演进路径，覆盖了该领域最新的研究进展（截至 2026 年初）。
多维度技术分类体系：提出涵盖七条核心技术路线的分类框架——推荐即生成、语义 ID 设计、LLM 自回归推荐、检索排序统一、对齐与强化学习、扩散模型推荐、非自回归生成式推荐——并分析各路线之间的交叉与融合。
跨领域技术借鉴分析：系统梳理了生成式推荐从 NLP、计算机视觉、强化学习与 Agent 系统中汲取的方法论启示，揭示了推动这一范式的底层技术动因。
工业部署实践深度剖析：聚焦美团 MTGR、YouTube PLUM、快手 OxygenREC/OneRec 等代表性工业系统，分析端到端生成式推荐在真实生产环境中的设计选择、工程挑战与效果验证。
前瞻性方向讨论：从生成空间对齐、效率优化、长期价值优化、基础模型建设、安全公平性等多个维度，提出未来研究的关键问题与可能的技术路线。

本文其余部分组织如下：第 2 章介绍背景知识与问题定义；第 3 章按时间线梳理技术演进脉络；第 4 章提出核心技术分类体系并逐一深入分析；第 5 章讨论工业部署实践；第 6 章分析跨领域技术借鉴；第 7 章展望开放问题与未来方向；第 8 章总结全文。

第 2 章背景与问题定义

2.1 推荐系统范式的形式化演进

本节从数学框架的角度给出三代推荐建模范式的形式化定义，聚焦各范式的优化目标与表达能力边界。各范式对应的代表性工作及其技术细节，已在 1.2 节概述并将在第 3 章按时间线展开。

范式一：判别式打分（Discriminative Scoring）。 核心建模形式为逐物品打分函数：

\[\hat{y}_{u,i} = f_\theta(\mathbf{x}_u, \mathbf{x}_i), \quad \forall i \in \mathcal{C}\]

其中 $f_\theta$ 可以是内积（矩阵分解 [Koren et al., 2009]）、浅层网络（Wide & Deep [Cheng et al., 2016]）或深层交互网络（DeepFM [Guo et al., 2017]）。该范式对每个候选物品独立打分，计算量与 $

\mathcal{C}

$ 线性相关，无法建模物品间的依赖关系。

范式二：表示匹配（Representation Matching）。 将打分函数约束为用户/物品嵌入的内积：

\[\hat{y}_{u,i} = \langle \mathbf{q}_u, \mathbf{k}_i \rangle, \quad \mathcal{C} = \text{ANN-TopK}_{i \in \mathcal{I}}(\mathbf{q}_u)\]

实现亚线性时间复杂度的候选生成，是工业级联架构的召回基础，但内积匹配的表达能力存在理论瓶颈——双塔模型无法表达某些复杂的用户-物品交互模式。

范式三：条件序列生成（Conditional Sequence Generation）。 将推荐建模为自回归生成：

\[P_\theta(\mathbf{y} | \mathbf{x}_u) = \prod_{t=1}^{T} P_\theta(y_t | y_{<t}, \mathbf{x}_u)\]

其中输出 $\mathbf{y}$ 为目标物品的语义 ID 或推荐列表的 token 序列。该范式的根本性转变在于：(1) 模型直接从全量物品空间”生成”结果，不依赖预先构建的候选集；(2) 自回归解码天然建模了输出 token 之间的依赖关系，支持列表级优化；(3) 统一的序列生成框架使得推荐、解释、对话等多任务可共享同一模型。第 2.3 节给出该范式的完整形式化定义。

2.2 级联架构的形式化描述

工业推荐系统普遍采用多阶段级联架构。设全量物品库为 $\mathcal{I}$，$

\mathcal{I}

= N$（通常 $N \sim 10^7 \text{–} 10^{10}$），用户上下文为 $\mathbf{x}_u$，级联流程定义如下：

候选生成（Candidate Generation）。 轻量级模型（如双塔模型）从全量物品库中召回候选集：

\[\mathcal{C}_1 = \text{Retrieve}(\mathbf{x}_u, \mathcal{I}; \theta_{\text{ret}}), \quad |\mathcal{C}_1| \sim 10^3\]

典型实现为近似最近邻检索（ANN）：$\mathcal{C}1 = \text{TopK}{i \in \mathcal{I}}(\langle \mathbf{q}_u, \mathbf{k}_i \rangle)$，其中 $\mathbf{q}_u, \mathbf{k}_i$ 分别为用户和物品的嵌入向量。

粗排（Pre-ranking）。 中等复杂度模型对候选集进行初步筛选：

\[\mathcal{C}_2 = \text{PreRank}(\mathbf{x}_u, \mathcal{C}_1; \theta_{\text{pre}}), \quad |\mathcal{C}_2| \sim 10^2\]

精排（Ranking）。 高复杂度模型对候选逐一打分：

\[s_i = f_{\text{rank}}(\mathbf{x}_u, i; \theta_{\text{rank}}), \quad \forall i \in \mathcal{C}_2\]

重排序（Re-ranking）。 综合业务策略输出最终展示列表：

\[\mathbf{Y} = \text{ReRank}(\{(i, s_i)\}_{i \in \mathcal{C}_2}; \theta_{\text{re}}, \text{constraints})\]

级联架构的核心问题在于：各阶段独立训练（$\theta_{\text{ret}}, \theta_{\text{pre}}, \theta_{\text{rank}}, \theta_{\text{re}}$ 无联合优化），且阶段间存在不可微的 top-K 截断操作，导致梯度无法从最终目标回传至上游。

2.3 生成式推荐的统一问题定义

生成式推荐将上述多阶段流程统一为条件序列生成问题。

输入。 用户上下文 $\mathbf{x}_u = (b_1, b_2, \ldots, b_M)$，其中 $b_j$ 为用户第 $j$ 个历史行为的 token 化表示（可包含物品语义 ID、行为类型、时间戳等信息）。

输出。 推荐结果的 token 序列 $\mathbf{y} = (y_1, y_2, \ldots, y_T)$，其中 $\mathbf{y}$ 可以是单个目标物品的语义 ID（$T = L$，$L$ 为语义 ID 层级数）或有序推荐列表中多个物品的 ID 拼接。

目标函数。 基础训练目标为条件对数似然最大化：

\[\mathcal{L}_{\text{MLE}} = -\sum_{t=1}^{T} \log P_\theta(y_t \mid y_{<t}, \mathbf{x}_u)\]

在对齐优化阶段，目标扩展为奖励最大化（见第 4.5 节）：

\[\max_\theta \; \mathbb{E}_{\mathbf{y} \sim P_\theta(\cdot|\mathbf{x}_u)} \left[ R(\mathbf{y}, \mathbf{x}_u) \right] - \beta \cdot \text{KL}(P_\theta \| P_{\text{ref}})\]

其中 $R(\cdot)$ 为序列级奖励函数，$P_{\text{ref}}$ 为参考策略，$\beta$ 控制分布偏移程度。

符号表。

符号	含义
$\mathcal{I}$	全量物品库，$\|\mathcal{I}\| = N$
$\mathbf{x}_u$	用户上下文（行为序列 + 画像）
$\mathbf{y}$	生成目标 token 序列
$\theta$	生成模型参数
$K$	语义 ID 码本大小
$L$	语义 ID 层级数（码字序列长度）
$R(\cdot)$	序列级奖励函数
$P_{\text{ref}}$	对齐优化中的参考策略

2.4 与生成式检索（Generative Retrieval for IR）的关系与区别

生成式推荐与信息检索（IR）领域的生成式检索 [Tay et al., 2022; De Cao et al., 2021] 共享核心范式——用自回归模型直接生成目标标识符，绕过传统的索引-检索流程。两者的关键关联与区别如下：

共享范式。 两者都将检索问题重构为”给定查询，自回归生成目标文档/物品的标识符”。TIGER [Rajput et al., 2023] 明确借鉴了 DSI [Tay et al., 2022]（Differentiable Search Index）的思路，将推荐建模为生成式检索。

核心区别。（1）查询性质不同：IR 的查询是显式的文本查询，用户意图相对明确；推荐的”查询”是隐式的用户行为序列，意图需要模型推断。（2）时序动态性：推荐中的用户偏好随时间演化，模型需要建模兴趣漂移；IR 中的文档相关性通常是静态的。（3）物品空间更新频率：推荐系统的物品库高频更新（尤其是短视频、新闻等场景），语义 ID 需要持续维护；IR 的文档库更新相对缓慢。（4）优化目标差异：IR 优化查询-文档相关性，推荐优化用户长期满意度和平台多目标（参与度、多样性、商业价值）。

第 3 章技术演进脉络

生成式推荐在 2022–2026 年间经历了从概念验证到工业级基础模型的快速演进。本章按时间线详细梳理每个阶段的代表性工作、核心技术创新及其与前一阶段的递进关系，勾勒出一条从”用语言模型做推荐”到”构建推荐专用生成基础模型”的清晰发展脉络。

3.1 范式提出与初步验证（2022）

1.3 节从宏观视角勾勒了五个阶段的时间线，2.1 节给出了三代范式的形式化定义。本章在此基础上深入每个阶段的技术创新细节、代表性工作之间的技术路线差异及其递进关系，为第 4 章的技术分类提供演进语境。

代表性工作： M6-Rec [Cui et al., 2022]、P5 [Geng et al., 2022/2023]。

技术创新细节。 M6-Rec 的核心技术决策是将推荐中的异构信息通过自然语言模板统一序列化。具体而言，用户 ID、物品 ID、类目标签和交互行为等结构化数据被转写为自然语言句子（如”用户 [user] 浏览了 [item_1]、[item_2]，请推荐”），输入 M6 的 encoder-decoder 架构。这一设计完全跳出了”特征工程 → embedding lookup → 打分函数”的传统流水线，但也引入了文本化带来的信息密度损失——用户 ID 在文本形式下对语言模型并不携带语义信号。P5 的预印本则提出用 T5 架构将五类推荐任务统一为 text-to-text 格式，通过个性化提示（personalized prompts）区分任务类型，预示了下一阶段的系统化发展。这两项工作的技术架构和方法论对比详见 4.1 节。

阶段的技术遗产。 该阶段建立了”推荐即生成”的概念可行性，但也暴露了两个根本性技术瓶颈：(1) 文本生成无法精确指向物品库中的特定物品（幻觉风险）；(2) 文本生成的推理效率无法满足在线服务需求。这两个瓶颈直接催生了 2023 年语义 ID 的研究。

3.2 统一范式的快速扩展与生成建模探索（2023）

代表性工作： P5 [Geng et al., 2023]、GenRec [Ji et al., 2023]、GPTRec [Petrov et al., 2023]、GPT4Rec [Li et al., 2023]、TIGER [Rajput et al., 2023]、LC-Rec [Zheng et al., 2023]、Chat-REC [Gao et al., 2023]、LLaRA [Liao et al., 2023]。

技术创新脉络。 2023 年的多线并发推进可以按”物品标识方式”这一核心维度组织：

从文本到结构化标识。 P5 用 whole-word embedding 策略将物品 ID 作为原子单元嵌入 T5 词表，解决了 subword 分词破坏 ID 完整性的问题（详见 4.1.3 节）。GenRec 转向 decoder-only 架构（LLaMA），直接生成物品标识符序列。GPTRec 则独创性地用 SVD 分解注入协同信号后量化为 token，在物品表示中编码全局交互模式。三条路线的共同趋势是：输出从”需要后处理的文本”走向”可直接解码的结构化标识”。
语义 ID 的技术突破。 TIGER 的核心创新是 RQ-VAE 多级残差量化——将物品内容嵌入逐层量化为码字序列 $(k_1, k_2, \ldots, k_L)$，天然形成”粗粒度类别 → 细粒度区分”的层级语义结构。这一设计同时解决了 2022 年遗留的两个瓶颈：码字序列可精确映射到物品库（消除幻觉），且 $L$ 步解码的复杂度远低于文本生成（提升效率）。约束 beam search 确保生成结果对应有效物品。技术细节详见 4.2.2 节。
语义-协同鸿沟的正面回应。 LC-Rec 提出学习式向量量化和六项对齐微调任务（item2index / index2item 双向映射等），在量化过程和模型训练两个层面显式注入协同信号。这一工作揭示了纯内容语义 ID 的局限性，并建立了”语义-协同对齐”这一后续研究的核心命题（详见 4.2.3 节）。
LLM 能力的多元利用。 Chat-REC 探索多轮对话交互式推荐，LLaRA 通过表示对齐将序列推荐知识注入 LLM，GPT4Rec 引入”关键词中间语义层”实现推荐与解释的融合。这些工作虽未直接推动主流技术路线，但为后续推理增强推荐（4.3 节）提供了重要的方法论积累。
非自回归生成路线的早期探索。 同期，DiffRec [Wang et al., 2023b] 首次将扩散模型引入推荐，通过 DDPM 框架在用户-物品交互空间中进行迭代去噪生成，开辟了自回归之外的另一条生成式推荐技术路线（详见 4.6 节）。DiffuRec [Li et al., 2023b] 进一步将扩散过程应用于序列推荐的嵌入空间。DreamRec [Yang et al., 2023] 则更激进地主张从”学习分类”转向”学习生成”，通过引导扩散直接生成用户心中的”理想物品”表示，完全消除负采样依赖。这些工作表明生成式推荐的”生成”机制并非自回归的专属，为后续非自回归方法的发展奠定了基础。

阶段性转折。 该阶段的根本性进展是将生成目标从”自然语言文本”精炼为”语义 ID token 序列”。这一跨越使得生成式推荐从”概念有趣但工程不可行”变为”有潜力替代传统级联架构”的技术路线，直接催生了 2024 年对推荐专用架构和 scaling 策略的探索。

3.3 行为序列优先与计算 Scaling Law（2024）

代表性工作： Actions Speak Louder than Words [Zhai et al., 2024]、ReasoningRec [Bismay et al., 2024]、Aligning LLMs with Recommendation Knowledge [Cao et al., 2024]。

核心贡献。 2024 年的核心主题是”推荐系统需要什么样的大模型”。

推荐专用基础模型。 Actions Speak Louder than Words 提出了 HSTU（Hierarchical Sequential Transduction Unit）架构，构建了 1.5 万亿参数（trillion-parameter）的序列转导模型，用于从用户行为序列中学习用户嵌入。该工作的核心发现是：推荐系统的模型质量随训练计算量呈幂律关系增长（power-law scaling），这一 scaling law 跨越三个数量级（从数十亿到万亿参数），与 GPT-3/LLaMA-2 等大语言模型的 scaling 行为高度一致。HSTU 架构的关键创新包括：(1) 将异构用户行为（点击、购买、停留时间等）统一编码为行为 token 序列，(2) 用分层注意力机制高效处理超长行为序列，(3) 设计了适合推荐场景的位置编码和因果掩码策略。
推理增强推荐。 ReasoningRec 探索了将 LLM 的推理能力引入推荐过程，通过链式推理（chain-of-thought）机制让模型在生成推荐前先产生推理路径，解释为何推荐某个物品。这一方向预示了后续”Think before Recommendation”等工作。
知识对齐。 Aligning LLMs with Recommendation Knowledge 研究了如何将推荐领域知识（如用户-物品交互模式、协同信号）注入通用 LLM，弥合语言模型预训练知识与推荐任务需求之间的鸿沟。

技术创新的深层意义。 Actions Speak 最重要的技术贡献并不仅仅是模型规模本身，而是证明了推荐系统存在与 LLM 类似的 compute scaling law。这意味着推荐系统的进步路径可以从”更好的特征工程”转向”更大的计算投入”，从根本上改变了推荐系统的发展范式。此外，该工作通过实验表明用户行为序列本身（”actions”）比文本描述（”words”）包含更丰富的推荐信号，为后续推荐专用基础模型的设计提供了关键指导原则。

与上一阶段的递进关系。 2023 年的工作（如 P5、TIGER）主要借用已有的语言模型架构（T5、GPT）来实现推荐任务，本质上是”将推荐适配到语言模型”。2024 年 Actions Speak 的出现标志着一个重要转向：推荐系统需要自己的专用架构和 scaling 策略，而非简单复用 NLP 模型。这一认知转变——从”LLM for Recommendation”到”Foundation Model of Recommendation”——为 2025 年的工业部署浪潮奠定了理论基础。

3.4 工业部署爆发与系统优化（2025）

代表性工作： MTGR [Han et al., 2025]（美团）、PLUM [He et al., 2025]（YouTube/Google）、OxygenREC [Hao et al., 2025]（快手）、OneRec [Zhou et al., 2025]（快手）、OneRec-V2 [Zhou et al., 2025]（快手）、Semantic IDs Handbook [Ju et al., 2025]、GFlowGR [Wang et al., 2025]、Sparse Meets Dense [Yang et al., 2025]、Beyond Cascaded Architectures [Zheng et al., 2025]、RecGPT [Ngo & Nguyen, 2024]、Think before Recommendation [Tang et al., 2025a]。

核心贡献。 2025 年是生成式推荐从实验室走向生产系统的转折年。多家头部互联网公司几乎同时将生成式推荐部署到亿级用户的真实推荐场景中，并开始系统性地解决工业化过程中的核心工程挑战。

端到端统一架构。 OneRec [Zhou et al., 2025] 用统一的端到端生成架构替代了快手短视频推荐中的传统级联系统（召回 → 粗排 → 精排 → 重排），证明了生成式推荐在工业级流量下的可行性。OneRec 将用户行为序列编码为 token 序列，用单一 Transformer 模型直接生成推荐列表，并引入强化学习（RLHF 风格）对生成结果进行对齐优化。实验表明，这种端到端方案在在线 A/B 测试中显著优于原有的四阶段级联系统。
高效推理架构。 OneRec-V2 [Zhou et al., 2025] 针对 OneRec 的推理效率瓶颈，提出 lazy decoder-only 架构。核心思想是用 decoder-only 结构替换原有的 encoder-decoder 设计，并引入”延迟解码”策略——仅在必要时执行自回归生成步骤，对已有足够置信度的候选直接输出。这一改进将训练速度提升了数倍，推理延迟降低到可以服务在线实时请求的水平。
预训练语言模型适配。 PLUM [He et al., 2025] 由 YouTube/Google 提出，探索了将预训练语言模型（PLM）直接适配为工业级推荐器的路径。PLUM 不从零训练推荐模型，而是在已有的大规模预训练语言模型基础上，通过领域适配（domain adaptation）和任务微调（task fine-tuning）将其转化为推荐生成器。这种路线的优势在于可以复用语言模型中已有的世界知识和推理能力。
本地生活场景验证。 MTGR [Han et al., 2025] 由美团提出，在本地生活服务场景（外卖、到店等）中验证了生成式推荐的工业可扩展性。MTGR 的技术特点包括对多模态物品信息（菜品图片、文字描述、价格、评分）的生成式融合，以及针对地理位置敏感性推荐的特殊设计。
快慢思考架构。 OxygenREC [Hao et al., 2025] 由快手提出，面向电商推荐场景，引入了”快思考-慢思考”（fast-slow thinking）双模式推荐架构。快思考模式用于常规请求的低延迟响应，慢思考模式用于高价值场景（如新用户冷启动、探索性推荐）的深度推理。这一设计在推荐质量和服务延迟之间取得了实用的平衡，并通过 IGR（Instruction-Guided Retrieval）、Q2I loss 和 SA-GCPO 等技术实现了多场景统一部署，在 GMV 和订单量上取得显著提升。
语义 ID 实践方法论。 Semantic IDs Handbook [Ju et al., 2025] 系统总结了语义 ID 在工业推荐系统中的设计原则、训练策略和部署经验。涵盖了 ID 构造方法（RQ-VAE、层次化聚类、混合码本设计）、码本规模与层级的选择准则、语义 ID 与协同信号的对齐策略、以及在线更新与版本管理等工程实践问题。
序列级奖励优化。 GFlowGR [Wang et al., 2025] 将 GFlowNet（Generative Flow Network）引入生成式推荐，探索序列级别（而非 token 级别）的奖励信号进行微调。传统自回归训练按 token 级别的交叉熵损失优化，而 GFlowGR 允许模型以完整推荐序列的全局质量为目标进行优化，更好地对齐最终业务指标。
稀疏-稠密统一表征。 Sparse Meets Dense [Yang et al., 2025] 研究了如何在生成式推荐中统一传统推荐的稀疏特征（如类目 ID、标签等高维稀疏 embedding）和生成模型的稠密语义表示。该工作提出了混合表征架构，使模型既能利用稀疏特征的高效检索能力，又能利用稠密表示的语义泛化能力。
广告场景端到端化。 Beyond Cascaded Architectures [Zheng et al., 2025] 将端到端生成式框架从推荐场景扩展至广告系统，解决了广告特有的约束条件（预算约束、出价策略、广告质量分）与生成模型的整合问题。
推理增强方向。 RecGPT [Ngo & Nguyen, 2024] 和 Think before Recommendation [Tang et al., 2025a] 继续发展推理增强推荐的技术路线。Think before Recommendation 让推荐模型在生成推荐结果之前先执行显式的推理步骤，类似于 LLM 中的 chain-of-thought prompting，在个性化推荐中引入可解释的推理链。
非自回归路线的工业验证。 NAR4Rec [Ren et al., 2024]（KDD 2024）在快手 3 亿+ DAU 的重排序场景中首次验证了非自回归生成式推荐的工业可行性，通过并行解码实现近常数时间推理。NLGR [Wang et al., 2025d]（WWW 2025 Industry Track）在美团外卖场景部署了基于邻居列表的非自回归生成式重排序。这两项工作证明了非自回归路线在延迟敏感的工业场景中是自回归方法的有效补充（详见 4.7 节），并为 7.9 节讨论的 AR-NAR 混合方向提供了工程基础。

与上一阶段的递进关系。 2024 年 Actions Speak 证明了推荐系统存在 scaling law，建立了”更大模型、更好效果”的理论预期。2025 年各工业系统的集中部署，则是对这一理论预期的大规模工程验证。从技术路线看，这一阶段的核心进展是：(1) 证明了端到端生成架构在工业级流量下确实优于级联系统（OneRec、MTGR），(2) 解决了生成式推荐的推理效率瓶颈（OneRec-V2 的 lazy decoding），(3) 将研究成果系统化为可复制的工程方法论（Semantic IDs Handbook）。问题从”生成式推荐能否替代级联架构”转变为”如何更高效地替代级联架构”。

3.5 开放生态与基础模型建设（2026）

代表性工作： Generative Recommendation for Large-Scale Advertising [Xue et al., 2026]、OpenOneRec [Zhou et al., 2026]。

核心贡献。 2026 年初，生成式推荐进入基础模型与开放生态建设的新阶段。

大规模广告系统验证。 Generative Recommendation for Large-Scale Advertising [Xue et al., 2026] 将生成式推荐进一步拓展至大规模广告投放系统。广告系统相比内容推荐有更严格的约束条件——预算控制、ROI 目标、实时竞价、广告主利益平衡等。该工作验证了生成式推荐范式在这些复杂商业约束下仍然可行，并且在广告效果（点击率、转化率）和平台收入上取得了优于传统级联系统的结果。
开放基础模型与可复现研究。 OpenOneRec [Zhou et al., 2026] 发布了推荐领域首个开放基础模型生态系统，包括：(1) 预训练权重（1.7B 和 8B 两个规模的模型），(2) 大规模数据集（涵盖 16 万用户、9600 万交互记录），(3) 综合性评估基准 RecIF-Bench。这一发布对标了 NLP 领域的 LLaMA/OLMo 等开放模型倡议，旨在降低生成式推荐研究的门槛，推动可复现研究与社区协作。OpenOneRec 的模型架构基于 OneRec-V2 的 lazy decoder-only 设计，并在开放数据上重新训练，使学术研究者无需工业级计算资源和私有数据即可进行相关研究。

与上一阶段的递进关系。 2025 年的工业部署以各公司内部系统为主，模型和数据均为私有，研究成果的可复现性受到严重限制。2026 年 OpenOneRec 的发布打破了这一瓶颈，使生成式推荐从”少数公司的内部实践”走向”开放社区的共同研究”。此外，从广告系统的成功验证（Xue et al., 2026）可以看出，生成式推荐的适用范围已从内容推荐扩展到商业变现场景，验证了该范式的通用性。

3.6 小结：四年演进的核心脉络

回顾 2022–2026 年的技术发展，可以识别出三条相互交织的演进主线：

主线一：从借用到专用。 早期工作（M6-Rec、P5）借用已有语言模型架构和预训练权重来实现推荐任务；中期（Actions Speak）证明推荐需要专用架构和 scaling 策略；后期（OneRec、OneRec-V2）发展出针对推荐场景优化的专用生成架构（如 lazy decoder-only）。

主线二：从文本到行为。 早期将推荐建模为文本生成（M6-Rec 生成自然语言描述），中期过渡到语义 ID 生成（TIGER 生成离散码字序列），后期进一步聚焦于用户行为序列本身的建模（Actions Speak 的 HSTU、OneRec 的行为 token 化）。

主线三：从学术到工业再到开放。 2022–2023 年以学术探索为主，2024 年建立理论基础（scaling law），2025 年工业部署爆发，2026 年通过开放模型和数据回馈学术社区，形成完整的研究-工程-开放循环。

第 4 章核心技术分类

4.1 将推荐统一为文本/序列生成

4.1.1 问题定义与技术动机

传统推荐系统将推荐建模为判别式任务：给定用户 $u$ 和候选物品 $i$，模型预测交互概率 $P(y=1

u,i)$，本质上是一个二元分类或排序问题。这一范式的根本限制在于：(1) 模型必须对每个候选物品逐一打分，计算量与候选集大小线性相关；(2) 不同推荐任务（评分预测、序列推荐、解释生成等）需要独立设计模型架构和训练流程；(3) 难以利用预训练语言模型中蕴含的世界知识和推理能力。

“推荐即生成”范式的核心思想是：将上述多种推荐任务统一重新定义为条件序列生成问题。形式化地，给定输入上下文 $\mathbf{x}$（包含用户历史、物品属性、任务指令等），模型以自回归方式生成输出序列 $\mathbf{y} = (y_1, y_2, \ldots, y_T)$，优化目标为条件对数似然：

\[\mathcal{L} = -\sum_{t=1}^{T} \log P_\theta(y_t | y_{<t}, \mathbf{x})\]

其中输出 $\mathbf{y}$ 可以是物品标识符（用于推荐）、自然语言文本（用于解释生成）、数值 token（用于评分预测）等不同形式，而模型架构和训练目标保持统一。这一范式的技术动机来自 NLP 领域”text-to-text”统一框架（如 T5 [Raffel et al., 2020]）的成功——将所有任务转化为序列到序列映射，使得单一模型可以处理翻译、摘要、问答等多种任务。

本节从输入表示、输出形式和训练范式三个维度，分析代表性工作之间的技术路线差异。

4.1.2 M6-Rec：开放式文本生成推荐的先驱

M6-Rec [Cui et al., 2022] 是”推荐即生成”范式的开创性工作，首次将推荐任务定义为开放式文本生成问题。

模型架构。 M6-Rec 基于阿里巴巴的 M6 预训练语言模型（百亿参数级，encoder-decoder 架构）。其核心设计是将推荐中的异构信息——用户 ID、物品 ID、类目标签、交互行为、物品属性等——通过自然语言模板统一序列化为文本输入。例如，一条用户-物品交互记录可以被转写为：”用户 [user_name] 最近浏览了 [item_1]、[item_2]、[item_3]，请推荐下一个商品。”模型的输入端接收这种结构化的文本描述，输出端以自回归方式生成推荐结果或辅助信息（如评分理由）。

输入表示：纯文本序列化。 M6-Rec 的输入完全采用自然语言文本形式，所有结构化信息通过预定义模板转化为文本。这种设计的优势在于可以直接复用预训练语言模型的语义理解能力，无需为推荐任务设计专门的特征工程流程。然而，纯文本表示的信息密度较低——用户 ID 和物品 ID 在文本形式下对语言模型而言并不携带有意义的语义信号，本质上是随机标识符。

输出形式：自然语言生成。 M6-Rec 的输出是自然语言文本，而非结构化的物品标识符。这意味着模型需要从生成的文本中提取或匹配到具体物品，增加了后处理的复杂度。但这也使得同一个模型可以同时处理推荐（生成物品名称）和解释生成（生成推荐理由）等不同任务。

训练范式：预训练 + 任务适配。 M6-Rec 利用已有的 M6 预训练权重，通过在推荐数据上进行领域适配训练来获得推荐能力。这种策略避免了从零开始训练大模型的高昂成本，但也受限于预训练模型的能力边界。

局限性。 M6-Rec 的主要局限在于：(1) 输出为自然语言文本，难以精确指向物品库中的特定物品，存在”幻觉”风险（生成不存在的物品名称）；(2) 文本生成的推理效率较低，不适合需要从数十亿物品中实时检索的在线场景；(3) 将结构化推荐数据文本化可能丢失交互模式中的高阶协同信号。

4.1.3 P5：Pretrain-Prompt-Predict 统一框架

P5 [Geng et al., 2023] 将”推荐即语言处理”这一思想系统化，提出了 Pretrain-Personalized Prompt-Predict 范式，是该方向最具影响力的框架之一。

模型架构。 P5 采用 T5（Text-to-Text Transfer Transformer）[Raffel et al., 2020] 作为骨干网络。T5 本身是一个 encoder-decoder 结构的预训练语言模型，其设计哲学是将所有 NLP 任务统一为 text-to-text 格式。P5 直接继承这一思想，将五类推荐任务统一为 text-to-text 问题。

五类任务统一。 P5 覆盖的五个推荐任务族包括：(1) 序列推荐（sequential recommendation）——根据交互历史预测下一个物品；(2) 评分预测（rating prediction）——预测用户对物品的评分值；(3) 解释生成（explanation generation）——为推荐结果生成自然语言解释；(4) 评论生成（review generation）——生成用户评论文本；(5) 直接推荐（direct recommendation）——给定用户直接推荐物品。每个任务都被转写为 “(输入文本, 输出文本)” 对，由同一个 T5 模型联合训练。

个性化提示设计。 P5 的核心创新在于个性化提示（personalized prompts）的设计。不同于标准 NLP 任务中使用任务描述作为提示，P5 在提示中嵌入用户特定的信息——用户 ID、交互历史中的物品 ID、以及任务指令。例如，序列推荐的提示模板可以是：”User_{user_id} has interacted with items {item_1}, {item_2}, …, {item_n}. Predict the next item.” 模型需要在预训练阶段学会理解这些个性化提示中携带的用户偏好信号。

Whole-word Embedding。 P5 引入了 whole-word embedding 策略来处理物品 ID 和用户 ID。由于 T5 的 tokenizer 会将数字 ID 拆分为多个 subword token（如 “12345” 可能被拆为 “123” + “45”），P5 将每个 ID 作为原子单元（whole word）嵌入到模型的词汇表中，确保 ID 的完整性不被 subword 分词破坏。这一设计对推荐任务至关重要，因为物品 ID 是推荐结果的核心标识。

训练策略：多任务联合预训练。 P5 采用多任务联合训练策略，在预训练阶段同时优化五类任务的序列到序列生成损失。这种联合训练使得不同任务之间的知识可以相互迁移——例如，评论生成中学到的物品特征理解能力可以增强序列推荐的效果。训练完成后，模型可以通过切换提示模板来执行不同任务，甚至在零样本或少样本设置下泛化到新任务。

与 M6-Rec 的对比。 相比 M6-Rec 的概念验证性质，P5 的贡献更偏方法论层面：(1) 它提供了一个可复用的任务统一框架，而非特定模型的应用展示；(2) 个性化提示机制使得用户 ID 和物品 ID 以结构化方式嵌入输入，信息密度高于 M6-Rec 的纯文本模板；(3) 五类任务的联合训练展示了跨任务迁移的系统性收益。然而，P5 的输出仍然依赖文本形式的物品 ID，面临与 M6-Rec 类似的精确匹配问题。

4.1.4 GenRec：LLM 直接生成物品标识符

GenRec [Ji et al., 2023] 探索了一条更激进的路线：直接利用大语言模型自回归生成物品标识符，而非通过文本匹配间接定位物品。

模型架构。 GenRec 以 LLaMA 为骨干网络，通过在用户-物品交互数据上进行微调（fine-tuning），使语言模型获得推荐能力。与 P5 使用 T5 的 encoder-decoder 架构不同，GenRec 采用 decoder-only 的 LLaMA 架构，更自然地适配自回归生成范式。

输入表示：结构化提示。 GenRec 设计了专门的提示模板来表达推荐任务。用户的历史交互序列和物品的文本属性（标题、描述等）被组织为结构化提示，输入 LLM 进行理解和推理。提示设计强调利用 LLM 的上下文理解能力来捕获用户偏好和物品特征。

输出形式：物品标识符的自回归生成。 GenRec 的核心创新在于输出端——模型直接生成目标物品的标识符（如物品标题或特定编码），而非生成一段需要后处理的自然语言文本。这种端到端的生成方式减少了从文本到物品的匹配误差，但仍然面临”生成空间”与”物品空间”之间的对齐挑战：模型生成的 token 序列必须精确匹配物品库中某个物品的标识符。

训练范式：预训练 LLM + 推荐微调。 GenRec 利用 LLaMA 的预训练权重作为初始化，在推荐数据集上进行微调。微调过程使用标准的自回归语言建模损失，优化目标是最大化给定用户上下文后生成正确物品标识符的概率。

与 P5 的对比。 GenRec 与 P5 的根本区别在于底层模型架构（decoder-only vs encoder-decoder）和输出目标（物品标识符 vs 多任务文本）。GenRec 聚焦于推荐任务本身，追求生成结果的精确性；P5 则追求任务统一性，牺牲一定精确性换取多任务能力。两者的共同局限是：物品标识符（无论是数字 ID 还是文本标题）缺乏语义结构，模型难以泛化到未见过的物品——这一问题直接催生了 4.2 节中语义 ID 的研究。

4.1.5 GPTRec：GPT 风格的下一物品生成

GPTRec [Petrov et al., 2023] 将序列推荐（sequential recommendation）重构为 GPT 风格的自回归生成任务。

问题重构。 传统序列推荐方法（如 SASRec [Kang & McAuley, 2018]、BERT4Rec [Sun et al., 2019]）将下一物品预测建模为分类问题——对所有候选物品计算 softmax 概率。GPTRec 将其转化为生成问题：给定用户历史交互序列 $(i_1, i_2, \ldots, i_n)$，模型自回归生成下一个物品的表示 $i_{n+1}$。

SVD Tokenization。 GPTRec 的一个关键创新是物品表示方法。不同于直接使用原子 ID 或文本标题，GPTRec 采用 SVD（Singular Value Decomposition，奇异值分解）对物品-交互矩阵进行分解，将每个物品表示为低维连续向量，再通过量化（quantization）将连续向量离散化为 token 序列。这种 SVD tokenization 方法试图在物品表示中注入协同过滤信号——SVD 分解本身编码了用户-物品交互的全局模式。

模型架构：GPT-style Transformer。 GPTRec 采用标准的 GPT 架构——因果注意力掩码（causal attention mask）的 Transformer decoder，逐 token 自回归生成物品表示。在推理时，通过 Top-K 采样或 beam search 生成多个候选物品。

与传统序列推荐的对比。 GPTRec 的生成式重构有两个潜在优势：(1) 生成过程天然支持列表级推荐（一次性生成多个物品的有序列表），而分类范式需要独立打分后排序；(2) GPT 架构可以利用更大规模的预训练和更长的上下文窗口。然而，SVD tokenization 生成的离散 token 缺乏可解释的语义含义，且量化过程引入了信息损失。

4.1.6 GPT4Rec：个性化推荐与兴趣解释的融合

GPT4Rec [Li et al., 2023] 提出了一种将推荐与解释生成融合的方案，其技术路线与上述工作有显著差异。

两阶段生成流程。 GPT4Rec 采用”生成关键词 → 搜索引擎检索”的两阶段设计。第一阶段，使用 GPT-2 模型从用户的历史交互中生成代表用户兴趣的关键词序列；第二阶段，将这些关键词作为查询（query）输入搜索引擎（如 BM25），从物品库中检索匹配物品。Beam search 被用于在第一阶段生成多组多样化的关键词集合，从而产生多条不同的检索路径。

输入表示。 GPT4Rec 将用户历史交互的物品信息（主要是物品标题）拼接为输入序列，用 GPT-2 进行编码和生成。物品的文本属性（标题）作为核心输入信号，而非数字 ID。

技术特点。 GPT4Rec 的独特之处在于引入了”中间语义层”——关键词序列。这些关键词既是推荐的中间结果（驱动检索），又是用户兴趣的可解释表达（可以直接呈现给用户作为推荐理由）。这种设计在可解释性上优于直接生成物品 ID 的方法，但引入了两阶段的误差传播：关键词生成的质量直接决定最终推荐效果。

4.1.7 对比分析与技术路线总结

上述五项工作可以从三个维度进行系统对比：

维度一：输入表示方式。 M6-Rec 和 P5 采用纯文本模板将推荐数据序列化，GenRec 设计结构化提示嵌入用户历史，GPTRec 使用 SVD 分解后的量化 token 表示物品序列，GPT4Rec 直接使用物品标题文本。总体趋势是从”将所有信息文本化”逐步走向”设计推荐专用的 token 表示”。

维度二：输出形式。 M6-Rec 输出自然语言文本（最灵活但最不精确），P5 输出任务相关的文本 token（兼顾多任务统一性），GenRec 直接生成物品标识符（追求精确匹配），GPTRec 生成量化后的物品向量 token（携带协同信号），GPT4Rec 生成关键词（可解释但需二次检索）。这一谱系反映了”生成精确性”与”语义丰富度”之间的权衡。

维度三：训练范式。 M6-Rec 和 GenRec 采用”预训练 LLM + 推荐微调”的迁移学习路线，继承预训练模型的语言理解能力；P5 采用”多任务联合预训练”策略，在推荐数据上从零训练统一模型；GPTRec 从推荐领域出发，用 SVD 分解注入协同信号后训练 GPT 模型；GPT4Rec 结合生成模型和传统检索系统。

核心遗留问题。 本节所述的所有方法都面临一个共同的根本挑战：物品空间（item space）与生成空间（generation space）之间的对齐问题。无论采用原子 ID、文本标题还是 SVD token 作为物品标识符，都存在信息不完整或语义不匹配的问题。这一挑战直接引出了下一节的核心议题——语义 ID 设计。

4.2 物品表示与语义 ID 设计

4.2.1 问题定义与技术动机

在生成式推荐中，物品表示（item representation）的设计是连接”生成空间”与”物品空间”的关键桥梁。其核心问题可以形式化为：给定物品集合 $\mathcal{I} = {i_1, i_2, \ldots, i_N}$，设计一个映射函数 $f: \mathcal{I} \rightarrow \mathcal{C}^L$，将每个物品映射为长度为 $L$ 的离散 token 序列 $(c_1, c_2, \ldots, c_L)$，其中 $c_l \in {1, 2, \ldots, K}$ 为第 $l$ 层码本（codebook）中的码字索引，$K$ 为码本大小。生成式推荐模型随后被训练为自回归生成这些 token 序列。

这一设计面临多个相互制约的目标：

语义保持性（Semantic Preservation）。 语义相似的物品应当被映射到相近的 token 序列，使得模型可以利用物品间的语义关系进行泛化。形式化地，对于语义相似的物品 $i_a$ 和 $i_b$（例如同一类目下的两部电影），它们的 token 序列 $f(i_a)$ 和 $f(i_b)$ 应当共享较多的前缀 token。

唯一可解码性（Unique Decodability）。 每个物品必须映射到唯一的 token 序列，即 $f$ 必须是单射的。否则模型生成的 token 序列将无法唯一确定推荐物品。

可生成性（Generability）。 token 序列应当具有可学习的生成模式——前缀 token 编码粗粒度类别信息，后续 token 逐步细化到具体物品。这种层级结构使得自回归生成可以”由粗到细”地定位目标物品，类似于在语义树（semantic tree）中进行层级检索。

协同信号编码（Collaborative Signal Encoding）。 除了内容语义外，物品表示还应当编码协同过滤信号——交互模式相似的物品（即被相似用户群体喜爱的物品）应当具有相近的 token 序列，即使它们在内容语义上差异较大。

传统推荐系统使用原子 ID（atomic ID）表示物品，每个 ID 是一个独立的 embedding 向量，不具备上述任何结构性特征。4.1 节中的早期生成式推荐工作（P5、GenRec）也大多沿用原子 ID 或文本标题作为物品标识符，面临泛化能力不足和冷启动困难等问题。语义 ID（Semantic ID）的研究正是为了系统性地解决这些问题。

4.2.2 TIGER：语义 ID 生成式检索的奠基工作

TIGER [Rajput et al., 2023] 是语义 ID 生成式推荐的奠基性工作，首次提出将推荐系统重构为”生成式检索”（generative retrieval）问题，发表于 NeurIPS 2023。

RQ-VAE 语义 ID 生成。 TIGER 的物品 tokenization 方法基于 RQ-VAE（Residual-Quantized Variational Autoencoder），这是一种多级残差向量量化架构。其工作流程如下：

内容嵌入提取。 首先，使用预训练模型（如 Sentence-T5）为每个物品生成内容嵌入向量 $\mathbf{e}_i \in \mathbb{R}^d$，编码物品的文本属性（标题、描述等）。
多级残差量化。 RQ-VAE 维护 $L$ 层码本，每层码本包含 $K$ 个码字向量 ${\mathbf{c}l^{(k)}}{k=1}^{K}$。量化过程逐层进行：第一层将原始嵌入 $\mathbf{e}_i$ 量化到最近的码字 $\mathbf{c}_1^{(k_1)}$，得到第一个码字索引 $k_1$；第二层对残差 $\mathbf{r}_1 = \mathbf{e}_i - \mathbf{c}_1^{(k_1)}$ 进行量化，得到第二个码字索引 $k_2$；依此类推，第 $l$ 层量化第 $l-1$ 层的残差。最终，每个物品被表示为一个 $L$-元组码字索引序列 $(k_1, k_2, \ldots, k_L)$，即该物品的语义 ID。
训练目标。 RQ-VAE 的训练结合重构损失（reconstruction loss）和码本承诺损失（commitment loss）：
\[\mathcal{L}_{\text{RQ-VAE}} = \|\mathbf{e}_i - \hat{\mathbf{e}}_i\|_2^2 + \beta \sum_{l=1}^{L} \|\mathbf{r}_{l-1} - \text{sg}[\mathbf{c}_l^{(k_l)}]\|_2^2\]
其中 $\hat{\mathbf{e}}i = \sum{l=1}^{L} \mathbf{c}_l^{(k_l)}$ 为重构嵌入，$\text{sg}[\cdot]$ 为 stop-gradient 操作，$\beta$ 为超参数。

层级语义结构。 RQ-VAE 生成的语义 ID 天然具有层级语义结构：第一层码字编码最粗粒度的语义类别（如”动作电影” vs “纪录片”），后续层码字逐步编码更细粒度的属性差异。这一层级结构与自回归生成的从左到右解码顺序完美匹配——模型先生成粗粒度类别 token，再逐步生成细粒度区分 token。

Seq2Seq Transformer 推荐模型。 在语义 ID 构建完成后，TIGER 训练一个 Transformer-based Seq2Seq 模型进行推荐。输入为用户历史交互物品的语义 ID 序列（多个物品的语义 ID 拼接），输出为目标物品的语义 ID。模型采用标准的 encoder-decoder 架构：encoder 编码用户历史行为序列，decoder 自回归生成目标物品的 $L$ 个码字 token。

推理策略：约束 Beam Search。 在推理阶段，TIGER 使用 beam search 进行解码，并通过约束策略确保生成的 token 序列对应物品库中的有效物品。具体而言，在每一步解码时，beam search 仅考虑那些在当前前缀下存在有效物品后缀的码字，避免生成”幻觉” ID（不对应任何物品的 token 序列）。

冷启动优势。 TIGER 的一个重要发现是语义 ID 对冷启动问题的缓解效果。由于语义 ID 基于物品内容嵌入而非交互历史构建，新物品只要具有内容属性（标题、描述），就可以获得有意义的语义 ID。实验表明，TIGER 在无交互历史的冷启动物品上的检索性能显著优于基于原子 ID 的方法。

实验结果与影响。 TIGER 在多个 Amazon 商品推荐数据集上显著优于当时的 SOTA 方法（包括 SASRec、BERT4Rec 等传统序列推荐模型），验证了语义 ID + 生成式检索范式的有效性。该工作被认为是推荐系统从”判别式检索”向”生成式检索”转变的里程碑，为后续大量跟进工作奠定了基础。

4.2.3 LC-Rec：语义空间与协同信号的对齐

TIGER 的语义 ID 基于内容嵌入（content embedding）构建，编码的是物品的内容语义（如文本描述中的主题、类别等）。然而，推荐系统的核心信号是协同过滤（collaborative filtering）——用户的交互行为蕴含的偏好模式往往与内容语义不完全一致。例如，两部风格迥异的电影可能被同一群用户喜爱（协同相似但内容不同），而两部同类型电影可能吸引完全不同的用户群（内容相似但协同不同）。LC-Rec [Zheng et al., 2023] 正面回应了这一”语义-协同鸿沟”问题，发表于 ICDE 2024。

核心思想：语言语义与协同语义的深度对齐。 LC-Rec（Language and Collaborative semantics for Recommendation）的核心创新是设计了一套系统性的方法，在大语言模型中同时整合语言语义和协同语义。其方法包含两个关键组件：(1) 基于学习的向量量化物品索引构建，(2) 多任务对齐微调。

学习式向量量化与均匀语义映射。 与 TIGER 使用预训练内容嵌入作为 RQ-VAE 输入不同，LC-Rec 设计了一种”学习式向量量化”方法，在量化过程中同时考虑物品的语言语义和协同信号。该方法引入”均匀语义映射”（uniform semantic mapping）约束，确保：(1) 每个物品被分配到唯一且有意义的索引（item index），避免冲突；(2) 码本空间被均匀利用，防止部分码字过度使用而另一些码字闲置（codebook collapse 问题）。

模型骨干：LLaMA-7B。 LC-Rec 以 LLaMA-7B 作为骨干大语言模型，通过在推荐数据上进行微调使其获得推荐能力。选择 LLaMA（decoder-only 架构）而非 T5（encoder-decoder 架构）反映了该领域从 encoder-decoder 向 decoder-only 架构转变的趋势。

六项对齐微调任务。 LC-Rec 的核心技术贡献是设计了六项精心构造的微调任务，以深度整合语言语义和协同语义：

seqrec（序列推荐）。 标准的下一物品预测任务，给定用户交互历史生成下一个物品的索引。这是核心推荐任务。
item2index（物品到索引映射）。 给定物品的文本描述（标题、属性等），生成对应的物品索引。该任务迫使模型学习从语言语义到量化索引的映射关系。
index2item（索引到物品映射）。 反向任务——给定物品索引，生成物品的文本描述。该任务确保物品索引确实编码了有意义的语义信息，且这种编码是可逆的。
fusionseqrec（融合序列推荐）。 序列推荐的增强版本，在输入中同时融合物品的文本信息和索引信息，训练模型利用两种信号源进行推荐。
itemsearch（物品搜索）。 给定描述用户需求的查询文本，生成匹配物品的索引。该任务引入了搜索场景的语义匹配能力。
preferenceobtain（偏好获取）。 从用户交互序列中推断用户偏好描述。该任务帮助模型建立用户行为序列与语言化偏好表达之间的对应关系。

这六项任务中，item2index 和 index2item 是建立语义-索引双向映射的”桥接任务”，fusionseqrec 是多信号融合任务，它们共同确保模型不仅能使用索引进行推荐，还能理解索引背后的语义含义。

训练配置。 LC-Rec 使用 DeepSpeed ZeRO Stage 3 进行分布式训练（8 GPU），采用 BF16 混合精度，学习率 5e-5，batch size 为 8（每设备），梯度累积步数为 2。在测试阶段使用 beam search（beam width = 20）进行解码。

与 TIGER 的对比。 LC-Rec 相对于 TIGER 的核心进步在于”协同信号的显式注入”。TIGER 的语义 ID 完全基于内容嵌入，协同信号仅通过 Seq2Seq 模型的训练间接学习；LC-Rec 则通过多任务对齐微调和学习式向量量化，在索引构建和模型训练两个层面显式地将协同信号与语义空间对齐。实验结果表明，LC-Rec 在多个 Amazon 数据集上优于 TIGER 和传统推荐方法，尤其在协同信号丰富的数据集上提升更为显著。

4.2.4 Semantic IDs Handbook：设计与部署实践方法论

Semantic IDs Handbook [Ju et al., 2025] 是对语义 ID 生成式推荐的设计原则和工业部署经验的系统性总结，具有重要的工程参考价值。

ID 构造方法的分类与对比。 该工作系统梳理了三类主流的语义 ID 构造方法：

RQ-VAE 系列。 以 TIGER 为代表，使用残差量化对内容嵌入进行多级离散化。优势在于直接从预训练嵌入出发，训练相对简单；挑战在于量化失真（quantization distortion）——多级残差量化在高维空间中的重构误差随层级增加而累积。
层级聚类方法。 对物品嵌入空间进行层级 K-means 或层级 K-way 聚类，将聚类树的路径编码作为语义 ID。例如，3 层聚类、每层 256 路，可为最多 $256^3 \approx 1677$ 万个物品分配唯一 ID。优势是训练效率高且易于工程实现；挑战是聚类边界的硬划分可能将语义相近的物品分到不同分支。
文本标题哈希。 直接使用物品标题的 subword token 序列作为 ID，或对标题进行哈希编码。优势是无需额外训练，且天然保持可读性和可解释性；挑战是标题长度不一导致 ID 长度不齐，且标题相似的不同物品可能产生冲突。

码本设计的关键权衡。 Handbook 深入分析了码本大小 $K$ 和层级数 $L$ 的选择对系统性能的影响：

码本大小 $K$。 较大的 $K$ 意味着每层有更多码字可选，单层区分能力更强，所需层级数 $L$ 可以更少。但 $K$ 过大会导致每层的 softmax 计算量增大，且部分码字可能使用频率极低（codebook underutilization）。
层级数 $L$。 更多层级使得 ID 编码的信息量更大（总表示空间为 $K^L$），但也使得自回归生成的步数增加，推理延迟线性增长。此外，层级过深会加剧错误传播——早期层的生成错误无法在后续层纠正。
典型配置。 实践中常用的配置为 $K = 256 \sim 1024$，$L = 3 \sim 4$。例如 $K=256, L=4$ 可表示约 43 亿个物品（$256^4$），足以覆盖绝大多数工业物品库。

语义-协同对齐策略。 Handbook 总结了两类对齐策略：(1) 训练时对齐（training-time alignment），如 LC-Rec 的多任务对齐微调，在模型训练过程中注入协同信号；(2) ID 构建时对齐（ID-time alignment），在构建语义 ID 时将协同嵌入（collaborative embedding）与内容嵌入（content embedding）融合后再进行量化。两种策略可以组合使用以获得最佳效果。

工业部署的实际约束。 Handbook 讨论了语义 ID 在工业部署中面临的多个实际问题：

ID 版本管理。 物品库动态更新（新增物品、下架物品），语义 ID 需要定期重新构建。但重建 ID 后，此前训练的推荐模型中的 ID 映射将失效，需要配套的增量更新策略。
码本热启动。 新版本的码本训练可以使用上一版本的码字作为初始化（warm start），减少语义漂移（semantic drift）——即同一物品在不同版本中的语义 ID 不一致问题。
在线推理效率。 约束 beam search 的效率与物品库大小相关。Handbook 讨论了前缀树（trie）索引和并行解码等加速方案。

4.2.5 Sparse Meets Dense：稀疏-稠密统一表征

Sparse Meets Dense [Yang et al., 2025] 探索了一条不同于纯语义 ID 的技术路线——将传统推荐中的稀疏特征表示与生成模型的稠密语义表示统一到同一个框架中。

问题动机。 传统推荐系统大量使用稀疏特征（sparse features）——如类目 ID、标签 ID、品牌 ID 等高维 one-hot 特征，通过 embedding lookup 映射为低维向量。这些稀疏特征在工业推荐系统中被证明极为有效，是 CTR 预估等任务的核心输入。然而，纯语义 ID 方法（如 TIGER、LC-Rec）丢弃了这些稀疏特征，仅依赖内容嵌入或协同嵌入来构建物品表示，可能损失重要的区分信息。

级联稀疏-稠密表征。 Sparse Meets Dense 的核心创新是”级联稀疏-稠密表征”（cascaded sparse-dense representation）。该方法将物品的表示分为两部分：(1) 稀疏部分——物品的类目 ID、标签等离散特征，通过 embedding 映射为稀疏向量；(2) 稠密部分——物品的内容嵌入，通过语义 ID 量化为离散 token。两部分在模型中级联使用：稀疏特征提供精确的类别区分能力，稠密语义 ID 提供跨物品的语义泛化能力。

与纯语义 ID 方法的对比。 相比 TIGER 和 LC-Rec 的纯语义 ID 方法，Sparse Meets Dense 的混合方案在以下场景中具有优势：(1) 物品特征维度丰富的工业数据集——稀疏特征提供了语义 ID 可能遗漏的区分信息；(2) 热门物品的精确推荐——这些物品通常有高质量的稀疏特征标注；(3) 与现有推荐系统的兼容——工业系统中已有大量稀疏特征工程积累，混合方案可以渐进式地引入生成式推荐能力，无需完全替换现有特征体系。

4.2.6 Tokenization 方法的系统对比

综合 TIGER、LC-Rec、Handbook 和 Sparse Meets Dense 的研究成果，可以对语义 ID 的 tokenization 方法进行系统性对比：

方法	输入信号	量化技术	协同信号	层级结构	冷启动能力	工业适用性
原子 ID	无	无	通过训练学习	无	差	成熟
文本标题	文本	Subword tokenization	无	无	好	简单
RQ-VAE（TIGER）	内容嵌入	残差量化	间接（通过训练）	自然层级	好	中等
学习式 VQ（LC-Rec）	内容+协同嵌入	学习式量化+均匀映射	显式对齐	学习层级	好	中等
层级聚类	嵌入	K-way 聚类	取决于输入嵌入	显式树结构	中等	高
级联稀疏-稠密	稀疏特征+嵌入	混合	稀疏特征编码	混合	中等	高

关键洞察与未解决问题。 语义 ID 设计领域的核心洞察可以总结为三点：

语义 ID 解决了生成式推荐的”可生成性”问题。 通过将无结构的原子 ID 空间转化为有层级语义结构的 token 空间，语义 ID 使得自回归生成模型可以”由粗到细”地定位目标物品，而非在指数级的 ID 空间中随机搜索。
语义-协同鸿沟是核心挑战。 从 TIGER（纯内容语义）到 LC-Rec（语义-协同对齐）再到 Sparse Meets Dense（稀疏-稠密统一），研究路线清晰地展示了对”如何在语义 ID 中编码协同信号”这一问题的逐步深入。
码本设计是工程与理论的交汇点。 码本大小、层级数、更新策略等看似工程性的参数选择，实际上深刻影响着模型的生成质量、推理效率和系统可维护性。Handbook 的贡献正在于将这些散落在不同论文中的经验系统化为可参考的实践指南。

尚未解决的关键问题包括：(1) 语义 ID 在超大规模物品库（十亿级别以上）中的可扩展性——码本空间是否足够，约束 beam search 是否仍然高效；(2) 动态物品库中的 ID 稳定性——如何在不频繁重建 ID 的前提下处理物品的增删改；(3) 多模态物品的统一 tokenization——如何同时编码物品的文本、图像、视频等多模态信息为统一的语义 ID。

4.3 基于 LLM 的自回归推荐

4.3.1 问题定义与技术动机

4.1 节和 4.2 节讨论的方法——无论是 P5 的多任务统一框架还是 TIGER 的语义 ID 生成式检索——本质上都是”为推荐任务训练（或微调）一个序列生成模型”。这些模型虽然借用了 Transformer 架构，但其参数规模、预训练数据和知识储备远不及当代大语言模型（LLM）。一个自然的问题随之而来：能否直接利用 LLM 的语言理解、世界知识和推理能力来完成推荐任务？

这一问题的技术动机来自三个方面：(1) LLM 在预训练阶段从海量文本中习得了关于物品属性、用户意图和常识推理的广泛知识，这些知识对理解”用户为什么喜欢某个物品”至关重要；(2) LLM 具备上下文学习（in-context learning）和指令跟随（instruction following）能力，可以通过自然语言提示灵活表达推荐任务；(3) 随着 Chain-of-Thought（CoT）等推理增强技术的发展，LLM 可以在生成推荐结果之前进行显式推理，提供可解释的推荐依据。

然而，直接将 LLM 用于推荐面临一个根本性挑战：推荐知识的注入问题。通用 LLM 的预训练语料以自然语言文本为主，缺乏用户-物品交互模式、协同过滤信号等推荐核心信息。如何弥合 LLM 的通用知识与推荐任务的领域需求之间的鸿沟，成为本节所有工作的共同主题。

形式化地，LLM-based 推荐可以表述为：给定用户上下文 $\mathbf{x}_u$（包含历史交互、用户画像等）和可选的任务指令 $\mathbf{p}$，LLM 以自回归方式生成推荐输出 $\mathbf{y}$：

\[P(\mathbf{y} | \mathbf{x}_u, \mathbf{p}) = \prod_{t=1}^{T} P_\theta(y_t | y_{<t}, \mathbf{x}_u, \mathbf{p})\]

其中 $\theta$ 为 LLM 参数，$\mathbf{y}$ 可以是物品标识符、推荐理由、推理链或其组合。根据推荐知识注入方式的不同，现有工作可以归纳为三条技术路径：提示工程路径（通过精心设计的 prompt 将推荐信息注入 LLM 上下文）、表示对齐路径（通过额外的对齐模块将推荐信号映射到 LLM 的表示空间）、推理增强路径（利用 LLM 的推理能力增强推荐质量）。

4.3.2 Chat-REC：提示工程与交互式推荐

Chat-REC [Gao et al., 2023] 是将 LLM 应用于推荐系统的早期代表性工作，探索了通过提示工程（prompt engineering）和多轮对话实现交互式推荐的技术路线。

核心架构：LLM 作为推荐对话引擎。 Chat-REC 的设计理念是将 ChatGPT 等通用对话 LLM 转化为推荐系统的交互界面。其核心架构包含两个组件：(1) 一个传统推荐模型（如协同过滤模型），负责根据用户历史生成初始候选列表；(2) ChatGPT 作为对话引擎，接收候选列表和用户的自然语言反馈，通过多轮对话精化推荐结果。

提示构造策略。 Chat-REC 的关键技术贡献在于提示模板的设计。系统将用户画像信息（年龄、性别、历史偏好等）、初始候选列表（由传统推荐模型生成）和当前对话上下文组合为结构化提示，输入 ChatGPT。提示模板的设计遵循以下原则：(1) 将用户历史交互转化为自然语言描述（如”该用户最近观看了《盗梦空间》、《星际穿越》等科幻电影”）；(2) 将推荐任务转化为对话指令（如”请根据该用户的偏好，从以下候选中推荐 5 部电影并说明理由”）；(3) 在多轮对话中动态更新提示，融入用户的实时反馈。

交互式精化机制。 Chat-REC 的独特价值在于其交互式推荐能力。用户可以通过自然语言表达偏好修正（如”我不想看恐怖片”、”推荐一些更轻松的”），LLM 理解这些反馈后调整推荐结果。这种交互方式远比传统推荐系统中的隐式反馈（点击/不点击）更为丰富和精确。

局限性分析。 Chat-REC 本质上是一个”提示增强”方案，LLM 本身并未学习推荐知识，推荐能力仍然依赖传统推荐模型提供的候选列表。其主要局限包括：(1) LLM 对物品库缺乏系统性理解，无法独立完成候选生成；(2) 推荐质量受限于初始候选列表的覆盖率——如果传统模型未召回某个物品，LLM 无论如何也无法推荐它；(3) 多轮对话带来的推理延迟和 token 消耗使其难以在高并发在线场景中部署；(4) LLM 可能产生”幻觉”——推荐不存在的物品或给出与物品实际内容不符的解释。

4.3.3 LLaRA：序列推荐器与 LLM 表示对齐

LLaRA [Liao et al., 2023] 探索了一条与 Chat-REC 截然不同的技术路线：不是通过提示将推荐信息注入 LLM 的文本输入，而是通过表示对齐（representation alignment）将推荐信号直接映射到 LLM 的隐状态空间中。

核心思想：混合提示（Hybrid Prompting）。 LLaRA 的核心创新在于提出了”混合提示”机制，将传统序列推荐模型学习到的物品表示与 LLM 的文本表示在隐空间中对齐。具体而言，LLaRA 训练一个轻量级的投影层（projection layer），将序列推荐模型（如 SASRec）输出的物品嵌入向量映射到 LLM（LLaMA）的 token 嵌入空间中，使 LLM 可以像处理文本 token 一样”理解”这些推荐嵌入。

两种对齐策略。 LLaRA 探索了两种具体的对齐策略：

序列表示对齐（Sequential Representation Alignment）。 将 SASRec 编码的用户行为序列表示作为一个特殊 token 嵌入到 LLM 的输入序列中。投影层学习将 SASRec 的表示空间映射到 LLaMA 的嵌入空间，使得 LLM 可以从这个特殊 token 中”读取”用户的行为偏好信号。
物品级表示对齐（Item-level Representation Alignment）。 将用户历史中每个物品的 SASRec 嵌入分别映射到 LLM 空间，作为独立的 token 嵌入。这种方式保留了更细粒度的物品级信息，但输入序列长度更长。

训练流程。 LLaRA 的训练分为两个阶段：(1) 预训练序列推荐模型（SASRec），在用户-物品交互数据上学习物品嵌入和序列表示；(2) 冻结 SASRec 参数，训练投影层和 LLaMA 的 LoRA 适配器（LoRA adapter），使 LLM 能够基于注入的推荐信号生成推荐结果。第二阶段的训练目标是标准的自回归语言建模损失，但输入中包含了通过投影层注入的推荐嵌入。

与 Chat-REC 的对比。 LLaRA 与 Chat-REC 代表了 LLM 推荐知识注入的两条根本路径。Chat-REC 在”文本层面”注入推荐信息（通过自然语言描述用户偏好和候选列表），LLaRA 在”表示层面”注入推荐信息（通过向量空间映射直接将推荐信号嵌入 LLM 隐状态）。表示层面的注入更加高效和精确——它避免了将数值化的推荐信号转化为文本时的信息损失，且不占用 LLM 的上下文窗口长度。然而，表示对齐的方法需要额外训练投影层和适配器，且对齐质量受限于两个表示空间之间的结构兼容性。

局限性。 LLaRA 的主要局限在于：(1) 对齐质量依赖于序列推荐模型的表示质量——如果 SASRec 的嵌入本身质量不高，投影后的表示也难以提供有效信号；(2) 两阶段训练流程使得模型无法端到端优化，SASRec 和 LLM 之间可能存在信息瓶颈；(3) 实验主要在学术数据集上验证，在工业规模下的表现有待进一步研究。

4.3.4 ReasoningRec：LLM 推理与可解释推荐

ReasoningRec [Bismay et al., 2024] 探索了 LLM 推理能力在推荐系统中的应用，是将 Chain-of-Thought 推理引入推荐的早期工作。

核心思想：推理增强的推荐。 ReasoningRec 的核心理念是：高质量的推荐不仅需要预测”用户可能喜欢什么”，还需要理解”用户为什么喜欢”。传统推荐模型通过隐式的嵌入匹配实现推荐，推荐逻辑完全封装在不可解释的向量运算中。ReasoningRec 利用 LLM 的推理能力，让模型在生成推荐结果之前先产生显式的推理路径，解释推荐依据。

方法设计。 ReasoningRec 的方法流程包含以下步骤：(1) 将用户的历史交互和候选物品的属性信息组织为结构化输入；(2) 通过精心设计的 prompt 引导 LLM 对用户偏好进行分析（如”根据该用户的浏览历史，其偏好可以归纳为：偏好科幻题材、关注视觉效果、倾向高评分作品”）；(3) 基于偏好分析，LLM 逐一评估候选物品与用户偏好的匹配程度，生成推理链；(4) 最终输出推荐结果和对应的推理解释。

推理路径生成。 ReasoningRec 使用 LLM 生成的推理路径作为”软标签”（soft label）来增强推荐模型的训练。具体而言，LLM 生成的推理路径被用于：(1) 提供推荐结果的可解释性——用户可以理解推荐的原因；(2) 作为数据增强——推理路径中包含的用户偏好分析可以为推荐模型提供额外的监督信号。

与传统可解释推荐的对比。 传统可解释推荐方法（如注意力权重可视化、知识图谱路径解释）通常是事后解释（post-hoc explanation）——先产生推荐结果，再为结果寻找解释。ReasoningRec 则是”先推理后推荐”（reasoning-then-recommending），推理过程本身参与推荐决策，因此解释与推荐结果在逻辑上一致，避免了事后解释的”自圆其说”问题。

局限性。 ReasoningRec 的推理过程依赖 LLM 的自然语言推理能力，存在以下挑战：(1) 推理质量不稳定——LLM 的推理路径可能包含逻辑错误或事实幻觉；(2) 推理效率低——生成详细推理链的 token 消耗远高于直接输出推荐结果；(3) 推理深度有限——当前 LLM 的推理能力主要集中在常识推理和浅层逻辑，对于复杂的用户偏好模式（如跨时间的兴趣演化）的推理能力有限。

4.3.5 Think before Recommendation：推荐前显式多步推理

Think before Recommendation [Tang et al., 2025a] 将 ReasoningRec 的”先推理后推荐”理念推向更系统化的方向，提出了在推荐生成之前执行显式多步推理（explicit multi-step reasoning）的框架。

核心架构：多步推理管道。 不同于 ReasoningRec 使用单一 LLM 同时完成推理和推荐，Think before Recommendation 设计了一个结构化的多步推理管道。该管道将推荐过程分解为若干可分离的推理步骤，每一步聚焦于推荐决策的一个特定方面：

用户偏好提取（Preference Extraction）。 从用户历史交互中提取结构化的偏好信号，包括类目偏好、品牌偏好、价格区间偏好、时间模式等。这一步将非结构化的行为序列转化为可推理的结构化偏好表示。
候选分析（Candidate Analysis）。 对每个候选物品进行多维度分析——内容属性、流行度、与用户历史的相关性、新颖度等，为后续的匹配推理提供信息基础。
匹配推理（Matching Reasoning）。 将用户偏好与候选物品特征进行交叉推理，显式判断匹配程度和匹配原因。这一步产生的推理链直接驱动最终推荐决策。
推荐生成（Recommendation Generation）。 基于匹配推理结果，生成最终的推荐列表和对应的解释文本。

与 Chain-of-Thought 的类比。 Think before Recommendation 的多步推理管道可以类比为 LLM 推理中的 Chain-of-Thought（CoT）技术。CoT 通过引导模型”一步步思考”来提升复杂推理任务的准确率；类似地，Think before Recommendation 通过将推荐分解为多个推理步骤，让模型在每一步中聚焦于推荐决策的一个局部方面，避免一步到位的”直觉式推荐”可能遗漏的关键考量。

训练方法。 Think before Recommendation 的训练采用”推理蒸馏”（reasoning distillation）策略。首先使用强大的 LLM（如 GPT-4）为训练数据生成高质量的多步推理路径；然后将这些推理路径作为监督信号，训练较小的推荐模型学习类似的推理能力。这种知识蒸馏策略使得最终部署的模型在推理效率和推理质量之间取得平衡。

与 ReasoningRec 的对比。 相比 ReasoningRec 的单步推理，Think before Recommendation 的多步推理具有两个优势：(1) 结构化的推理步骤使得每一步的推理任务更简单、更可控，减少了 LLM 推理中的错误累积；(2) 中间推理结果可以作为独立的特征使用或进行质量监控，增强了系统的可调试性和可控性。

4.3.6 RecGPT：GPT 风格推荐基础框架

RecGPT [Ngo & Nguyen, 2024] 提出了一种 GPT 风格的推荐基础框架，试图构建推荐领域的通用预训练模型。

设计理念：推荐领域的 GPT。 RecGPT 的设计理念借鉴了 GPT 系列在 NLP 中的成功路径：通过大规模预训练学习通用的序列建模能力，然后通过微调适配到具体任务。RecGPT 将用户行为序列视为”推荐语言”，将物品视为”词汇”，将用户的行为模式视为”语法”，在大规模行为数据上进行自回归预训练。

架构设计。 RecGPT 采用 decoder-only 的 Transformer 架构（与 GPT 一致），但在以下方面针对推荐场景进行了定制：

行为 Token 化。 RecGPT 将用户的多类型行为（点击、购买、收藏、停留时间等）统一编码为行为 token。每个行为 token 包含三个信息维度：行为类型（action type）、目标物品（target item）和时间戳（timestamp）。这种统一编码使模型能够同时理解不同类型的行为信号。
时间感知位置编码。 不同于标准 Transformer 中的整数位置编码，RecGPT 设计了时间感知的位置编码（time-aware positional encoding），将行为发生的实际时间间隔编码到位置信息中。这使模型能够区分”一天内的连续浏览”和”隔了一周的再次访问”等时间模式。
多粒度生成目标。 RecGPT 的预训练目标不仅包括下一物品预测（next-item prediction），还包括下一行为类型预测和下一交互时间预测，形成多粒度的生成目标。

预训练与微调范式。 RecGPT 的训练分为两个阶段：(1) 预训练阶段在大规模用户行为日志上进行自回归训练，学习通用的序列行为模式；(2) 微调阶段在特定推荐任务上进行适配，如序列推荐、点击率预估、兴趣探索等。预训练数据的规模和多样性是 RecGPT 性能的关键——越大规模、越多样的行为数据可以学习到越通用的行为模式。

与 HSTU 的对比。 RecGPT 与 4.4 节将讨论的 HSTU [Zhai et al., 2024] 在设计理念上有相似之处——都试图构建推荐专用的基础模型。两者的核心区别在于：HSTU 侧重于通过 scaling 探索推荐模型的计算规律（1.5 万亿参数），强调”更大更好”；RecGPT 侧重于设计推荐专用的 token 化策略和预训练目标，强调”更适合推荐”。两者可以视为推荐基础模型的两种互补路线——规模路线和架构路线。

4.3.7 对比分析：三条知识注入路径

综合上述六项工作，LLM-based 自回归推荐可以按照推荐知识注入路径分为三类：

路径一：提示工程（Prompt Engineering）。 代表工作：Chat-REC。通过自然语言提示将推荐信息（用户历史、候选列表、任务指令）注入 LLM 的上下文。优势是无需修改 LLM 参数，部署灵活；劣势是受限于上下文窗口长度，且推荐信号的文本化表达存在信息损失。适用于交互式推荐、冷启动场景等对延迟容忍度较高的应用。

路径二：表示对齐（Representation Alignment）。 代表工作：LLaRA。通过训练投影层将推荐模型的嵌入映射到 LLM 的表示空间。优势是信息注入效率高，不占用上下文窗口；劣势是需要额外训练对齐模块，且对齐质量受限于两个空间的结构兼容性。适用于需要将传统推荐模型的能力与 LLM 结合的场景。

路径三：推理增强（Reasoning Enhancement）。 代表工作：ReasoningRec、Think before Recommendation。利用 LLM 的推理能力在推荐前进行显式推理，将推理链作为推荐的中间表示或辅助信号。优势是提供可解释性，且推理过程可以捕捉传统嵌入匹配难以表达的复杂偏好模式；劣势是推理过程的计算开销大，且推理质量不稳定。适用于高价值推荐场景（如高客单价商品推荐、个性化教育推荐）。该路线的进一步发展包括将推理链的隐层表示（而非文本）直接参与推荐计算，以及通过 RL 端到端优化推理质量。

混合路径。 RecGPT 代表了一种混合路径——不是将推荐知识注入通用 LLM，而是从零构建推荐专用的 GPT 模型。这种路径避免了知识注入的对齐问题，但需要大规模的推荐数据和计算资源进行预训练。

方法	知识注入路径	骨干模型	推荐能力来源	可解释性	推理效率	冷启动
Chat-REC	提示工程	ChatGPT（冻结）	传统模型+LLM常识	高（对话式）	低	好
LLaRA	表示对齐	LLaMA+LoRA	SASRec嵌入+LLM	中	中	中
ReasoningRec	推理增强	LLM	LLM推理+偏好分析	高（推理链）	低	好
Think before Rec	推理增强	LLM+蒸馏	多步推理管道	高（结构化）	中	好
RecGPT	原生推荐预训练	GPT风格定制	行为序列预训练	低	高	中

4.3.8 小结与未解决问题

LLM-based 自回归推荐的核心价值在于引入了通用 LLM 的三种能力：世界知识（理解物品属性和用户意图）、上下文学习（灵活适配不同推荐任务）和推理能力（提供可解释的推荐逻辑）。然而，这一方向仍面临若干未解决的关键问题：

效率瓶颈。 无论是提示工程（长上下文推理）还是推理增强（多步推理链），LLM-based 方法的推理效率都远低于传统推荐模型和 4.2 节的语义 ID 方法。在工业级实时推荐场景（毫秒级延迟要求、数万 QPS）中，如何控制 LLM 推理成本是核心工程挑战。
推荐知识的有效注入。 当前的知识注入方法（提示/对齐/推理）各有局限，尚未出现一种既高效又精确的通用注入方案。特别是如何将协同过滤信号——推荐系统最核心的信号——有效注入 LLM，仍然是开放问题。
推理质量的可靠性。 LLM 的推理可能包含幻觉（hallucination）和逻辑不一致，在推荐场景中可能导致不恰当的推荐结果。如何确保推理链的可靠性和一致性，是推理增强路径需要解决的关键问题。
评估方法论的缺失。 当前缺乏系统性的评估框架来衡量 LLM-based 推荐中”推理质量”与”推荐质量”之间的关系——推理链看起来合理但推荐结果不好，或推荐结果好但推理链存在错误，这些情况如何评估和优化？
规模化与个性化的平衡。 LLM 的通用知识使其在跨用户的共性推理上表现良好，但个性化推荐需要模型深度理解每个用户的独特偏好模式。如何在 LLM 的通用性和推荐的个性化之间取得平衡，是一个重要的研究方向。

4.4 检索与排序的统一

4.4.1 问题定义与技术动机

传统推荐系统的级联架构——候选生成（检索）→ 粗排 → 精排 → 重排——在第 1 章中已被分析为存在信息损失、任务割裂和端到端优化困难等结构性缺陷。4.1-4.3 节讨论的生成式推荐方法从不同角度尝试解决这些问题，但大多聚焦于学术数据集上的单一任务验证。本节讨论的工作则直面一个更具挑战性的工程问题：如何在工业级推荐系统中，用统一的生成式架构替代整条级联流水线？

形式化地，统一检索-排序的生成式推荐可以表述为：给定用户上下文 $\mathbf{x}_u$，模型直接输出一个有序推荐列表 $\mathbf{Y} = (y_1, y_2, \ldots, y_K)$，其中 $y_k$ 为排序位置 $k$ 上的推荐物品，$K$ 为列表长度。优化目标为最大化列表级别的效用函数：

\[\max_\theta \mathbb{E}_{u \sim \mathcal{U}} \left[ \text{Utility}(\mathbf{Y}_\theta(\mathbf{x}_u), u) \right]\]

其中 $\text{Utility}(\cdot)$ 可以是 NDCG、用户满意度、平台收入等业务指标。这与传统的逐物品打分范式（$P(y=1

u,i)$）在目标层面就存在本质差异——统一模型直接优化列表级目标，而非逐物品的点级目标。

本节按照从学术探索到工业部署的顺序，分析七项代表性工作。

4.4.2 Actions Speak Louder than Words：万亿参数 HSTU 架构

Actions Speak Louder than Words [Zhai et al., 2024] 是推荐系统大规模建模的里程碑工作，提出了 HSTU 架构并首次在推荐领域验证了 compute scaling law。

HSTU 架构设计。 HSTU（Hierarchical Sequential Transduction Unit）是专为推荐场景设计的序列转导架构。其核心设计区别于标准 Transformer 的以下方面：

异构行为 Token 化。 HSTU 将用户的多类型行为（点击、购买、停留、跳过等）和相关物品信息统一编码为行为 token 序列。每个行为 token 由行为类型嵌入、物品嵌入和时间嵌入三部分叠加组成，使模型能同时理解”用户做了什么”（行为类型）、”对什么物品”（物品）和”什么时候”（时间）。
分层注意力机制。 为高效处理超长行为序列（工业系统中用户可能有数千条行为记录），HSTU 设计了分层注意力：底层使用局部注意力（local attention）捕获短期行为模式，高层使用全局注意力（global attention）捕获长期偏好。这种分层设计将标准 Transformer 的 $O(n^2)$ 注意力复杂度降低到近似线性。
因果掩码与推荐适配。 HSTU 使用因果注意力掩码（causal attention mask），确保模型在编码第 $t$ 个行为时只能看到前 $t-1$ 个行为，符合推荐场景中的时序因果性。同时，HSTU 的位置编码结合了序列位置和绝对时间戳信息，使模型能够感知行为的时间间隔。

Scaling Law 发现。 HSTU 最重要的贡献是在推荐领域首次验证了 compute scaling law。通过在 Meta 的大规模用户行为数据上训练不同规模的 HSTU 模型（从数十亿到 1.5 万亿参数），作者发现：

\[\text{Loss}(C) \propto C^{-\alpha}\]

其中 $C$ 为训练计算量（FLOPs），$\alpha$ 为幂律指数。这一关系跨越三个数量级保持稳定，与 LLM 领域的 scaling law（Kaplan et al., 2020; Hoffmann et al., 2022）高度一致。这意味着推荐模型的质量可以通过增加计算量来可预测地提升，为推荐系统的发展指明了一条明确的资源-收益路径。

应用方式。 值得注意的是，HSTU 在 Meta 的应用方式是学习用户嵌入（user embedding），而非直接生成推荐列表。即 HSTU 的输出是一个高质量的用户表示向量，该向量随后被用于下游的检索和排序模块。这与本节其他工作（如 OneRec）的”完全端到端”路线有所不同——HSTU 更接近于”用生成式大模型增强级联架构的表示学习层”，而非”替代整条级联流水线”。

技术影响。 HSTU 的 scaling law 发现从根本上改变了推荐系统的技术叙事。在此之前，推荐系统的进步主要来自更好的特征工程、模型架构创新和训练策略优化；HSTU 证明了”更大的计算投入”本身就是一条可靠的进步路径，推动了后续工业系统对大规模推荐模型的投入。

4.4.3 OneRec：端到端生成推荐与强化学习

OneRec [Zhou et al., 2025] 是快手提出的端到端生成式推荐系统，首次在工业级短视频推荐中用统一生成模型替代传统级联架构。

系统架构：从级联到端到端。 OneRec 的核心设计是用一个统一的 Transformer 模型替代快手短视频推荐系统中原有的四阶段级联流水线（召回 → 粗排 → 精排 → 重排）。该模型接收用户行为序列作为输入，直接输出推荐物品列表，中间不经过任何候选筛选或逐物品打分步骤。

物品 Token 化。 OneRec 将每个物品编码为一组 token（包含物品 ID 嵌入、内容嵌入和行为统计特征），用户的历史行为序列被转化为这些 token 的时序拼接。模型的输入是用户行为 token 序列，输出是下一个推荐物品的 token 序列。

自回归生成流程。 OneRec 采用 encoder-decoder 架构：encoder 对用户行为序列进行编码，生成用户表示；decoder 以自回归方式逐步生成推荐列表中的每个物品。在生成列表中第 $k$ 个物品时，decoder 可以看到前 $k-1$ 个已生成的物品，从而实现列表内的多样性控制和位置偏差建模。

强化学习优化。 OneRec 的另一个核心创新是引入强化学习（RL）对生成模型进行对齐优化。具体而言：

奖励模型训练。 基于用户的实际反馈（观看时长、互动行为、是否完播等）训练奖励模型，评估生成的推荐列表的质量。
策略优化。 使用 RLHF（Reinforcement Learning from Human Feedback）风格的训练流程，以奖励模型的输出为信号，通过近端策略优化（PPO）或类似算法优化生成模型的策略。
在线效果。 OneRec 在快手的在线 A/B 测试中，核心指标（用户活跃度、观看时长等）显著优于原有的四阶段级联系统，验证了端到端生成式架构在工业级流量下的有效性。

工程挑战与解决方案。 OneRec 在工业部署中面临的核心工程挑战包括：(1) 推理延迟——自回归生成 $K$ 个物品需要 $K$ 步解码，延迟远高于传统的并行打分；(2) 物品覆盖率——生成模型可能偏向高频物品，导致长尾物品缺乏曝光；(3) 在线更新——用户行为实时产生，模型需要快速适应最新的用户偏好。OneRec 通过推测解码（speculative decoding）、多样性约束和增量训练等技术方案应对这些挑战。

4.4.4 OneRec-V2：Lazy Decoder-Only 提升效率

OneRec-V2 [Zhou et al., 2025] 是 OneRec 的架构升级版本，核心创新是 lazy decoder-only 架构，大幅提升训练和推理效率。

Lazy Decoder-Only 架构。 OneRec-V2 将 OneRec 的 encoder-decoder 架构替换为 decoder-only 架构，并引入”延迟解码”（lazy decoding）策略。传统 decoder-only 模型在每一步解码时都需要完整的自回归计算；lazy decoding 的核心思想是：对于模型已有高置信度的推荐位置，跳过完整的解码步骤，直接输出 top-1 候选，仅对不确定的位置执行完整的多步解码。

效率提升机制。 Lazy decoding 的效率提升来自两个方面：

计算减少。 在实际推荐场景中，推荐列表的前几个位置通常具有高置信度（用户的 top 偏好通常较为明确），仅后续位置的不确定性较高。Lazy decoding 利用这一特性，将平均解码步数从固定的 $K$ 步降低到自适应的 $K’ \ll K$ 步。
KV Cache 共享。 Decoder-only 架构使得用户行为序列的编码和推荐列表的生成共享同一套 KV Cache，避免了 encoder-decoder 架构中 encoder 和 decoder 分别维护独立缓存的开销。

与 OneRec 的对比。 相比 OneRec 的 encoder-decoder 架构，OneRec-V2 的 lazy decoder-only 架构在以下方面取得了改进：(1) 训练速度提升数倍——decoder-only 架构的并行化更简单，且不需要 cross-attention 计算；(2) 推理延迟大幅降低——lazy decoding 策略使得平均推理时间接近常量，不再与推荐列表长度线性相关；(3) 内存占用减少——单一模型参数替代 encoder+decoder 双模型参数。

架构设计的深层洞察。 OneRec-V2 的架构演进（从 encoder-decoder 到 decoder-only）与 NLP 领域的发展趋势高度一致——GPT 系列的成功证明了 decoder-only 架构在生成任务上的优越性。这种架构趋同暗示了推荐系统和语言模型在底层生成范式上的本质相似性：两者都是条件自回归生成，区别仅在于生成”词汇”的性质（语言 token vs 推荐 token）。

4.4.5 MTGR：美团工业级生成式推荐

MTGR [Han et al., 2025] 是美团提出的工业级生成式推荐系统，在本地生活服务场景（外卖、到店餐饮等）中验证了生成式推荐的工业可扩展性。

场景特点。 本地生活推荐与短视频推荐存在显著差异：(1) 物品属性更复杂——餐饮商品包含菜品图片、文字描述、价格、评分、配送时间、距离等多维度信息；(2) 地理位置敏感性强——推荐结果受用户位置、商家位置和配送范围的硬约束；(3) 时间敏感性高——用户在不同时段（早餐、午餐、下午茶、晚餐）的需求差异大。

生成式融合架构。 MTGR 的架构设计针对本地生活场景的特点进行了专门优化：

多模态物品 Token 化。 MTGR 将物品的多模态信息（文本描述、图片特征、数值属性）统一编码为 token 序列。文本信息通过预训练语言模型编码，图片信息通过视觉编码器（如 CLIP）编码，数值属性（价格、评分等）通过分桶+嵌入的方式离散化。
地理位置编码。 MTGR 设计了专门的地理位置编码模块，将用户位置和商家位置信息编码到模型的注意力计算中。这使模型能够在生成推荐时自动考虑距离约束，而非通过后处理进行地理过滤。
时间上下文建模。 模型输入中包含当前时间的编码（时段、星期几、节假日等），使推荐结果能够适应用户的时间相关偏好。

工业部署实践。 MTGR 在美团的工业部署中，展示了生成式推荐在以下方面的优势：(1) 相比原有级联系统，交易转化率（CVR）和用户满意度指标获得显著提升；(2) 多模态信息的端到端融合减少了原有系统中多个独立模型的维护成本；(3) 统一架构使得新增推荐信号（如新的物品属性）的接入更加便捷。

4.4.6 PLUM：YouTube 预训练语言模型适配

PLUM [He et al., 2025] 是 YouTube/Google 提出的将预训练语言模型（PLM）适配为工业级推荐系统的框架。

核心思想：PLM 适配而非从零训练。 与 OneRec（从零训练推荐模型）和 HSTU（设计推荐专用架构）不同，PLUM 的策略是将已有的大规模预训练语言模型直接适配为推荐器。这一路线的优势在于：(1) 复用 PLM 中已有的世界知识和语义理解能力；(2) 避免大规模推荐数据上的高昂预训练成本；(3) 可以随 PLM 的升级（如从 T5 到 PaLM）自动获得能力提升。

适配方法。 PLUM 的 PLM 适配包含以下步骤：

领域适配（Domain Adaptation）。 在 YouTube 的视频元数据（标题、描述、标签等）上对 PLM 进行继续预训练，使模型学习视频领域的专业术语和内容语义。
推荐任务微调（Task Fine-tuning）。 在用户-视频交互数据上对适配后的 PLM 进行推荐任务微调。输入为用户历史观看视频的文本描述序列，输出为下一个推荐视频的语义标识符。
效率优化。 针对 YouTube 的在线服务要求（数十万 QPS、亚毫秒级延迟），PLUM 采用了模型蒸馏、量化和缓存等优化技术，将 PLM 的推理成本降低到可服务在线流量的水平。

与 RecGPT 的路线对比。 PLUM 和 RecGPT 代表了推荐基础模型的两条技术路线。RecGPT 从零构建推荐专用的预训练模型（”构建推荐的 GPT”），PLUM 则复用已有的通用 PLM 并适配到推荐任务（”将 GPT 变为推荐器”）。PLUM 路线的核心假设是通用 PLM 的语义理解能力可以有效迁移到推荐场景；RecGPT 路线的核心假设是推荐任务需要专用的 token 化和预训练目标。两条路线的优劣取决于推荐场景中”语义理解”与”行为建模”的相对重要性——内容驱动的推荐（如新闻、视频）可能更适合 PLUM 路线，行为驱动的推荐（如电商、广告）可能更适合 RecGPT 路线。

4.4.7 OxygenREC：快慢思考推荐

OxygenREC [Hao et al., 2025] 是快手提出的面向电商推荐场景的快慢思考（fast-slow thinking）推荐架构，创造性地引入了认知科学中的双过程理论（dual-process theory）来平衡推荐质量与服务效率。

设计灵感：Kahneman 的双系统理论。 OxygenREC 的设计灵感来自 Daniel Kahneman 提出的人类认知双系统理论——System 1（快思考）负责快速、自动、直觉性的判断，System 2（慢思考）负责缓慢、刻意、分析性的推理。OxygenREC 将这一认知模型映射到推荐系统中：

快思考模式（Fast Thinking Mode）。 轻量级推荐模型，用于处理常规推荐请求。该模式使用压缩的用户表示和简化的生成流程，以极低延迟（毫秒级）产出推荐结果。快思考模式的推荐质量可能略低，但足以满足大多数常规场景的需求。
慢思考模式（Slow Thinking Mode）。 完整的大规模生成推荐模型，用于处理高价值或高不确定性的推荐场景。该模式使用完整的用户行为序列、多步推理和全局优化，以更高的计算成本产出更高质量的推荐结果。慢思考模式适用于：新用户冷启动（需要深度探索用户偏好）、高价值物品推荐（推荐错误的代价大）、探索性推荐（需要突破用户已有偏好的信息茧房）。

路由机制。 OxygenREC 的关键技术组件是路由器（router），负责判断每个推荐请求应由快思考还是慢思考处理。路由器基于以下信号做出决策：(1) 用户特征（新用户 vs 老用户）；(2) 请求上下文（首页推荐 vs 详情页推荐）；(3) 系统负载（高负载时更多请求路由到快思考）；(4) 探索需求（是否需要提升推荐多样性）。

与 OneRec 的互补关系。 OxygenREC 与 OneRec 都来自快手，但解决不同层面的问题。OneRec 解决”如何用统一模型替代级联架构”；OxygenREC 解决”如何在不同场景中动态平衡推荐质量与服务效率”。在实际系统中，两者可以组合使用——OneRec 作为慢思考模式的生成模型，其轻量级版本作为快思考模式的骨干。

4.4.8 Beyond Cascaded Architectures：广告场景的端到端生成

Beyond Cascaded Architectures [Zheng et al., 2025] 将端到端生成式推荐框架从内容推荐扩展至广告系统，解决了广告特有的约束条件与生成模型的整合问题。

广告场景的特殊约束。 广告推荐与内容推荐相比，存在一系列额外的业务约束：

预算约束（Budget Constraint）。 每个广告主设置了日/周/总预算上限，推荐系统在生成广告展示列表时必须考虑预算消耗情况，避免过早耗尽某个广告主的预算。
出价约束（Bid Constraint）。 广告展示通常通过实时竞价（RTB, Real-Time Bidding）机制分配，生成的推荐列表需要满足竞价排名的约束。
广告质量约束（Quality Constraint）。 低质量广告（虚假宣传、用户体验差）需要被过滤或降权，这需要在生成过程中嵌入质量评估机制。
多目标优化。 广告系统需要同时优化多个目标——用户体验（相关性、非侵入性）、广告效果（点击率、转化率）和平台收入（CPM、CPC），这些目标之间可能存在冲突。

约束感知的生成框架。 Beyond Cascaded Architectures 的核心创新是将上述业务约束嵌入自回归生成过程中。具体方案包括：

约束编码。 将当前的预算消耗状态、出价信息和质量分数编码为额外的上下文 token，与用户行为序列一起输入生成模型。模型在生成过程中”感知”这些约束信息。
约束解码。 在自回归解码过程中，通过修改候选 token 的概率分布来强制满足约束条件。例如，预算即将耗尽的广告主的广告在候选 token 中被降权或屏蔽。
多目标奖励建模。 训练多目标奖励模型，将用户体验、广告效果和平台收入统一为单一的标量奖励信号，用于 RL-based 的模型优化。

与 Generative Recommendation for Large-Scale Advertising 的关系。 Beyond Cascaded Architectures（2025）聚焦于架构设计和约束整合方法论，Generative Recommendation for Large-Scale Advertising [Xue et al., 2026] 则在更大规模的广告系统中验证了这一框架的工业可行性。两者共同构成了生成式推荐在广告场景中从方法研究到工业部署的完整路径。

4.4.9 对比分析与方法总结

方法	发布方	架构	核心创新	训练目标函数	规模	部署场景
HSTU	Meta	专用 Transformer	Scaling law 验证	自回归交叉熵（next-action prediction）	1.5T 参数	用户嵌入学习
OneRec	快手	Encoder-Decoder	端到端替代级联+RL	交叉熵 + PPO/ECPO 强化学习奖励	工业级	短视频推荐
OneRec-V2	快手	Lazy Decoder-Only	延迟解码提升效率	交叉熵 + GBPO（梯度有界策略优化）+ Duration-Aware Reward Shaping	工业级	短视频推荐
MTGR	美团	多模态 Transformer	地理/时间感知	判别式 BCE（二元交叉熵点击预测）	工业级	本地生活
PLUM	YouTube/Google	适配 PLM	PLM→推荐器	CPT 自回归 LM loss + SFT 交叉熵 + reward-weighted SFT	工业级	视频推荐
OxygenREC	快手	双模式架构	快慢思考	交叉熵 + Q2I 语义一致性 loss + SA-GCPO 多场景 RL	工业级	电商推荐
Beyond Cascaded	—	约束感知生成	广告约束整合	约束感知交叉熵（出价-预算条件生成 loss）	工业级	广告系统

技术路线的收敛趋势。 纵观上述七项工作，可以识别出统一检索-排序方向的三个收敛趋势：

架构向 decoder-only 收敛。 从 OneRec 的 encoder-decoder 到 OneRec-V2 的 decoder-only，从 PLUM 对 PLM 的适配到 RecGPT 的 GPT 风格设计，decoder-only 架构正在成为推荐生成模型的主流选择。这与 NLP 领域的架构趋势一致。
优化目标从似然到奖励。 早期方法使用标准的交叉熵损失训练（最大化下一 token 似然），OneRec 引入 RL 优化后，优化目标从”预测准确率”转向”用户满意度”等业务指标。这一转变在 4.5 节将详细讨论。
从学术验证到工业约束。 从 HSTU 的 scaling law 学术验证，到 OneRec/MTGR 的内容推荐部署，再到 Beyond Cascaded 的广告约束整合，研究重心逐步从”能否统一”转向”如何在复杂业务约束下统一”。

4.4.10 小结与未解决问题

统一检索-排序是生成式推荐最具工业影响力的技术方向。2024-2025 年间，多家头部互联网公司的工业实践已经证明端到端生成式架构可以在真实生产环境中替代传统级联系统。然而，以下问题仍然开放：

超大规模物品空间的效率。 当前工业系统的物品库规模通常在千万至亿级别。当物品库扩展到十亿甚至百亿级别时，自回归生成的解码空间将变得极大，如何维持实时推理效率是核心挑战。
多目标优化的统一。 工业推荐系统通常需要同时优化多个目标（点击率、停留时长、多样性、新颖度、公平性等）。如何在统一生成框架中优雅地处理多目标优化，而非简单地加权求和，仍缺乏系统性的解决方案。
在线学习与实时适应。 用户偏好和物品库都在实时变化，生成模型需要快速适应这些变化。传统级联系统中各模块可以独立更新，统一模型的在线更新策略（增量训练 vs 全量重训）尚需更多工业实践验证。
可逆性与回滚。 统一模型替代级联系统后，如果模型出现异常（如训练bug导致推荐质量骤降），回滚成本远高于级联系统中替换单个模块。如何设计容错机制和灰度发布策略，是工业部署的重要工程问题。
跨场景泛化。 当前每个工业系统（OneRec/MTGR/PLUM/OxygenREC）都针对特定场景设计。是否存在一种通用的统一架构，可以同时适用于短视频、本地生活、长视频、电商等不同推荐场景，仍是开放问题。

4.5 对齐优化与强化学习

4.5.1 问题定义与技术动机

4.1–4.4 节讨论的生成式推荐方法在训练阶段普遍采用标准的自回归语言建模损失——最大化下一 token 的条件对数似然：

\[\mathcal{L}_{\text{MLE}} = -\sum_{t=1}^{T} \log P_\theta(y_t | y_{<t}, \mathbf{x})\]

这一训练目标等价于最小化模型分布与训练数据分布之间的 KL 散度，即让模型尽可能”模仿”训练数据中的行为模式。然而，最大似然训练在推荐场景中存在根本性的目标错位问题：

问题一：Token 级优化 vs 序列级评估。 MLE 按 token 级别优化（每个 token 的预测概率独立计算），但推荐质量通常在序列（列表）级别评估——一个推荐列表的好坏取决于整个列表的相关性、多样性和排序质量，而非单个物品的预测准确率。Token 级最优不等于序列级最优：一个在每个位置都选择了局部最优物品的列表，可能因为物品之间的冗余（缺乏多样性）而在整体上劣于一个每个位置略偏离最优但整体更均衡的列表。

问题二：离线训练 vs 在线目标。 MLE 在离线数据上训练，优化的是”预测用户历史行为”的准确率。但推荐系统的真实目标是”提升用户未来体验”——包括用户满意度、留存率、长期价值（LTV）等在线指标。离线数据中的用户行为受到展示偏差（exposure bias）、位置偏差（position bias）和选择偏差（selection bias）的污染，直接在这些偏差数据上做 MLE 训练会导致模型学习到有偏的推荐策略。

问题三：模式覆盖 vs 模式聚焦。 MLE 训练倾向于”模式覆盖”（mode-covering）——模型试图覆盖训练数据中的所有模式，包括低质量的行为（如误点击、随意浏览）。而推荐系统需要”模式聚焦”（mode-seeking）——模型应当聚焦于高质量的用户行为（如深度阅读、有意义的购买），而非盲目模仿所有行为。

对齐优化（alignment optimization）和强化学习（reinforcement learning）正是为解决上述目标错位问题而引入的技术手段。其核心思想是：在 MLE 预训练的基础上，引入额外的训练阶段，使用序列级或列表级的奖励信号对模型进行微调，使模型的生成策略从”模仿历史行为”转向”最大化用户满意度”。

形式化地，对齐优化的目标可以表述为：

\[\max_\theta \mathbb{E}_{\mathbf{y} \sim P_\theta(\cdot|\mathbf{x})} \left[ R(\mathbf{y}, \mathbf{x}) \right] - \beta \cdot \text{KL}(P_\theta \| P_{\text{ref}})\]

其中 $R(\mathbf{y}, \mathbf{x})$ 为序列级奖励函数，$P_{\text{ref}}$ 为参考模型（通常是 MLE 预训练后的模型），KL 正则项防止对齐优化过程中模型过度偏离预训练分布（避免”奖励黑客”问题）。

4.5.2 GFlowGR：GFlowNet 序列级奖励优化

GFlowGR [Wang et al., 2025] 将 GFlowNet（Generative Flow Network）引入生成式推荐，探索了一种不同于传统 RL（如 PPO）的序列级奖励优化方法。

GFlowNet 基础。 GFlowNet [Bengio et al., 2021; 2023] 是一类训练随机策略以按照与奖励成正比的概率采样离散对象的生成模型。与标准 RL 追求最大化期望奖励不同，GFlowNet 的目标是学习一个策略 $\pi$，使得生成对象 $\mathbf{y}$ 的概率正比于其奖励：

\[P_\pi(\mathbf{y}) \propto R(\mathbf{y})\]

这一特性对推荐系统尤为有价值：标准 RL 训练的模型倾向于”贪婪地”总是生成奖励最高的推荐列表，导致推荐结果缺乏多样性；GFlowNet 训练的模型则以与奖励成正比的概率采样不同的推荐列表，在高奖励区域更密集地采样，但不完全忽略中等奖励的替代方案，从而天然支持推荐多样性。

GFlowGR 的方法设计。 GFlowGR 将生成式推荐的自回归生成过程建模为 GFlowNet 的序列构建过程：

状态空间。 每个部分生成的推荐序列 $(y_1, \ldots, y_t)$ 对应 GFlowNet 中的一个状态。初始状态为空序列，终止状态为完整的推荐列表。
动作空间。 每一步的动作是选择下一个推荐物品 $y_{t+1}$。
流匹配训练（Flow Matching Training）。 GFlowGR 使用 GFlowNet 的流匹配条件（flow matching condition）训练模型。流匹配条件要求：对于每个中间状态，流入该状态的总流量等于流出该状态的总流量。具体训练损失为子轨迹平衡损失（sub-trajectory balance loss）：
\[\mathcal{L}_{\text{STB}} = \left( \log \frac{\prod_{t=s}^{e} P_F(y_t|y_{<t})}{R(\mathbf{y}) \cdot \prod_{t=s}^{e} P_B(y_{t-1}|y_{\leq t})} \right)^2\]
其中 $P_F$ 为前向策略（生成模型），$P_B$ 为后向策略（辅助模型），$R(\mathbf{y})$ 为终止状态的奖励。
奖励定义。 GFlowGR 的奖励函数 $R(\mathbf{y})$ 定义在完整推荐序列上，可以整合多种序列级指标（如 NDCG、多样性、覆盖率等），而非 token 级别的匹配分数。

与 PPO 的对比。 GFlowGR 与 OneRec 使用的 PPO 方法在目标和特性上存在本质差异：

PPO 目标：最大化期望奖励。 PPO 训练模型总是生成期望奖励最高的序列，适合明确追求单一指标最大化的场景。但可能导致模式坍缩（mode collapse）——模型总是生成同一类高奖励序列，缺乏多样性。
GFlowNet 目标：按奖励比例采样。 GFlowNet 训练模型按奖励成正比的概率采样不同序列，天然支持多样性。但可能在最优序列上的生成概率低于 PPO 方法。
实际选择。 在推荐场景中，如果业务目标是单一指标的最大化（如点击率），PPO 更适合；如果需要同时兼顾推荐质量和多样性，GFlowNet 可能更合适。

局限性。 GFlowGR 的主要局限包括：(1) GFlowNet 的训练比 PPO 更复杂，需要同时训练前向策略和后向策略；(2) 流匹配条件在高维动作空间中的满足程度难以保证，可能导致训练不稳定；(3) 目前主要在学术数据集上验证，工业规模下的表现有待进一步研究。

4.5.3 OneRec 与 OpenOneRec 的 RL 实践

OneRec [Zhou et al., 2025] 和 OpenOneRec [Zhou et al., 2026] 在工业级生成式推荐系统中实践了强化学习优化，是对齐优化在推荐领域最大规模的工业应用。

OneRec 的 RL 方案。 OneRec 在 MLE 预训练之后，引入了 RLHF 风格的对齐优化阶段：

奖励模型（Reward Model）。 基于用户的实际行为反馈（观看完成率、互动行为、负反馈信号等）训练奖励模型。奖励模型接收一个推荐列表和用户上下文作为输入，输出一个标量奖励分数，评估该推荐列表的整体质量。
策略优化。 使用 PPO（Proximal Policy Optimization）或类似的策略梯度算法优化生成模型。生成模型（策略网络）产出推荐列表，奖励模型给出反馈信号，策略梯度方法更新生成模型参数以最大化期望奖励。
KL 约束。 在 RL 优化过程中，通过 KL 散度约束限制模型与 MLE 预训练模型之间的分布偏移，防止模型在奖励优化过程中丧失预训练阶段学到的基础推荐能力。

OneRec RL 的在线效果。 OneRec 的 RL 对齐优化在快手的在线 A/B 测试中带来了显著的增量收益：

相比仅使用 MLE 训练的模型，RL 优化后的模型在用户活跃度、视频完播率等核心指标上获得了可观提升。
RL 优化显著改善了推荐列表的多样性和新颖度，减少了”信息茧房”现象。
长期来看，RL 优化的模型在用户留存率上也优于 MLE 模型，验证了从”模仿历史行为”到”优化用户满意度”的目标转换的有效性。

OpenOneRec 的开放 RL 实践。 OpenOneRec [Zhou et al., 2026] 作为开源基础模型，提供了可复现的 RL 训练流程：

开放奖励模型。 OpenOneRec 发布了预训练的奖励模型权重，使学术研究者无需大规模在线 A/B 测试数据即可进行 RL 实验。
RecIF-Bench 评估框架。 OpenOneRec 提出了 RecIF-Bench（Recommendation Instruction Following Benchmark），用于系统性地评估生成式推荐模型在指令跟随、推荐质量和对齐程度等维度上的表现。
模型规模。 OpenOneRec 提供了 1.7B 和 8B 两个规模的预训练模型，以及配套的 RL 微调脚本，使研究者可以在不同计算预算下探索 RL 对齐优化。

RL 优化的工程挑战。 OneRec/OpenOneRec 的工业实践揭示了 RL 优化在推荐场景中的若干工程挑战：(1) 奖励信号的设计——如何将多维度的用户反馈（短期兴趣满足 vs 长期价值 vs 平台生态）整合为单一奖励信号，是一个需要持续调优的设计问题；(2) 训练稳定性——RL 训练本身不稳定，在大规模工业系统中的训练崩溃（training collapse）风险需要通过检查点恢复、梯度裁剪等工程手段控制；(3) 奖励黑客（reward hacking）——模型可能发现奖励模型的漏洞，生成高奖励但低质量的推荐列表，需要通过定期更新奖励模型和人工审核来应对。

4.5.4 Aligning LLMs with Recommendation Knowledge

Aligning LLMs with Recommendation Knowledge [Cao et al., 2024] 研究了一个更基础的对齐问题：如何将推荐领域知识注入通用 LLM，弥合 LLM 预训练知识与推荐任务需求之间的鸿沟。

对齐鸿沟分析。 该工作首先系统分析了 LLM 在推荐任务中表现不佳的根本原因：

知识鸿沟（Knowledge Gap）。 LLM 的预训练语料以自然语言文本为主，缺乏用户-物品交互模式、协同过滤信号等推荐核心知识。例如，LLM 可能理解”科幻电影”的概念，但不知道”喜欢《星际穿越》的用户通常也喜欢《火星救援》”。
表示鸿沟（Representation Gap）。 LLM 的内部表示空间针对语言语义进行了优化，推荐信号（如用户嵌入、物品嵌入）在 LLM 的表示空间中可能没有有效的编码方式。
目标鸿沟（Objective Gap）。 LLM 的预训练目标是预测下一个语言 token，而推荐任务需要预测用户的下一个交互物品——两者在优化目标上存在根本差异。

对齐方法。 该工作提出了一套系统性的对齐方法来弥合上述鸿沟：

知识注入式微调。 构造推荐知识增强的微调数据，将协同过滤信号转化为自然语言形式的训练样本。例如，将”用户 A 和用户 B 的行为相似度为 0.85”转化为”用户 A 和用户 B 有着非常相似的偏好，他们都喜欢科幻类电影和悬疑类书籍”。
表示空间桥接。 训练适配器（adapter）将推荐嵌入映射到 LLM 的表示空间，类似于 LLaRA 的表示对齐方法，但在对齐策略上更加系统化——同时对齐用户嵌入、物品嵌入和交互嵌入。
任务指令设计。 设计推荐特化的指令模板，引导 LLM 在推荐任务中采用正确的推理模式。例如，提示 LLM 首先分析用户的历史行为模式，然后基于这些模式进行推荐，而非依赖 LLM 自身的常识知识直接推荐。

与 4.3 节方法的关系。 Aligning LLMs with Recommendation Knowledge 可以被视为 4.3 节讨论的 LLM-based 推荐方法的理论基础——它系统分析了 LLM 用于推荐时的对齐挑战，并提出了统一的对齐框架。4.3 节的各项工作（Chat-REC 的提示工程、LLaRA 的表示对齐、ReasoningRec 的推理增强）可以被理解为该对齐框架中不同维度的具体实现。

4.5.5 对比分析与方法总结

方法	对齐类型	奖励信号	优化算法	多样性支持	工业验证
GFlowGR	序列级奖励	推荐列表质量	流匹配（GFlowNet）	天然支持	学术
OneRec RL	RLHF	用户行为反馈	PPO	需额外约束	工业级（快手）
OpenOneRec	开放 RL 框架	预训练奖励模型	PPO/DPO	—	开放基准
Aligning LLMs	知识对齐	推荐知识监督	微调	—	学术

4.5.6 小结与未解决问题

对齐优化与强化学习是将生成式推荐从”模仿历史行为”推向”优化用户体验”的关键技术。OneRec 的工业实践已经证明 RL 对齐可以在大规模在线系统中带来显著的业务收益，OpenOneRec 的开放框架使学术研究者也能参与这一方向的探索。然而，以下核心问题仍然开放：

奖励函数设计。 如何设计能够准确反映”用户长期满意度”而非仅仅是”短期点击率”的奖励函数？当前的奖励模型大多基于短期行为反馈（如单次会话内的点击和观看），难以捕捉用户留存、知识获取等长期价值。构建能反映用户长期价值的奖励信号，可能需要结合因果推断或逆强化学习等方法论。
离线到在线的迁移。 RL 训练通常在离线环境中进行（使用历史日志数据），但推荐系统的真实环境是在线的。离线训练的策略在在线部署时可能因为分布偏移（distributional shift）而表现不佳。如何减少离线-在线的策略迁移损失，是一个需要更多实践验证的问题。
多智能体推荐优化。 在多方利益相关的推荐场景（如平台、用户、内容创作者三方）中，RL 优化需要同时平衡多方利益。这本质上是一个多智能体博弈问题，单纯的单智能体 RL 方法可能不足以处理多方利益的冲突与均衡。
对齐税（Alignment Tax）。 RL 对齐优化通常会导致模型在基础推荐指标（如预测准确率）上略有下降——这被称为”对齐税”。如何最小化对齐税，即在不损失基础推荐能力的前提下获得对齐收益，是技术优化的重要方向。
可复现性与公平评估。 当前 RL 对齐的效果高度依赖于奖励模型的质量和训练超参数的选择，不同工作之间难以公平对比。OpenOneRec 的开放框架是解决这一问题的重要一步，但更系统性的评估基准和标准化的 RL 训练协议仍然需要社区共同建设。

4.6 基于扩散模型的推荐（Diffusion-based Recommendation）

4.6.1 技术动机与背景

前述 4.1–4.5 节讨论的生成式推荐方法几乎全部基于自回归（AR）生成范式——模型逐步生成推荐物品的 token 序列，每一步依赖前一步的输出。然而，生成式建模领域的另一条重要技术路线——扩散模型（Diffusion Models）——在图像生成（DALL-E 2、Stable Diffusion）和音频合成等任务上展现了强大的生成能力，其核心思想是通过学习逐步去噪过程将随机噪声转化为高质量样本。将扩散模型引入推荐系统，提供了一种与自回归生成本质不同的生成式推荐范式。

扩散模型用于推荐的核心动机包括：(1) 并行生成能力——扩散模型的去噪过程可以在空间维度上并行执行，不受自回归解码的序列长度线性延迟约束；(2) 连续空间建模优势——扩散模型天然适合在连续表示空间中操作，可以直接对用户-物品交互矩阵或物品嵌入进行建模；(3) 噪声鲁棒性——扩散模型的前向过程本质上是对数据添加噪声，这与推荐数据中的隐式反馈噪声（误点击、随意浏览等）具有天然的契合性。

4.6.2 DiffRec：扩散模型用于协同过滤推荐

DiffRec [Wang et al., 2023b] 是将扩散模型引入推荐系统的开创性工作，首次提出用去噪扩散概率模型（DDPM）进行协同过滤推荐。

核心思想。 DiffRec 将用户-物品交互向量的恢复建模为去噪过程。与图像生成中将数据完全腐蚀为纯高斯噪声不同，DiffRec 的关键创新在于控制噪声添加的程度——仅添加适度的噪声而非将交互信号完全腐蚀为纯噪声，从而在去噪过程中保留用户的个性化信号。这一设计源于推荐数据与图像数据的本质差异：图像生成需要从完全随机状态构建结构，而推荐的目标是从带噪声的交互信号中恢复真实偏好。

数学形式化。 设用户 $u$ 的交互向量为 $\bm{x}_0 = \bm{x}_u \in {0,1}^{

\mathcal{I}

}$，其中 $

\mathcal{I}

$ 为物品总数。DiffRec 基于 DDPM 框架，但对前向过程和训练目标进行了关键修改。

前向扩散过程。 标准 DDPM 的前向过程逐步向数据添加高斯噪声：

\[q(\bm{x}_t|\bm{x}_{t-1}) = \mathcal{N}(\bm{x}_t; \sqrt{1-\beta_t}\bm{x}_{t-1}, \beta_t\bm{I})\]

通过重参数化技巧可直接从 $\bm{x}_0$ 采样任意时刻 $t$ 的噪声版本：

\[q(\bm{x}_t|\bm{x}_0) = \mathcal{N}(\bm{x}_t; \sqrt{\bar{\alpha}_t}\bm{x}_0, (1-\bar{\alpha}_t)\bm{I}), \quad \bm{x}_t = \sqrt{\bar{\alpha}_t}\bm{x}_0 + \sqrt{1-\bar{\alpha}_t}\bm{\epsilon}\]

其中 $\alpha_t = 1 - \beta_t$，$\bar{\alpha}t = \prod{t’=1}^{t}\alpha_{t’}$，$\bm{\epsilon} \sim \mathcal{N}(\bm{0}, \bm{I})$。

DiffRec 的关键修改：受控噪声调度。 DiffRec 不使用标准的线性/余弦噪声调度，而是设计了一个受控噪声调度，使 $\bm{x}_T$ 不退化为纯高斯噪声：

\[1 - \bar{\alpha}_t = s \cdot \left[\alpha_{\min} + \frac{t-1}{T-1}(\alpha_{\max} - \alpha_{\min})\right], \quad t \in \{1, \dots, T\}\]

其中 $s \in [0,1]$ 控制整体噪声强度，$\alpha_{\min} < \alpha_{\max} \in (0,1)$ 设定噪声范围的上下界。直觉上，通过降低 $s$ 和 $\alpha_{\max}$，交互向量在前向过程终点仍保留大量个性化信息——这与图像扩散将数据完全腐蚀至标准高斯的设计形成鲜明对比。这一修改的合理性在于：推荐任务是从带噪声的偏好信号中恢复真实偏好，而非从零开始生成全新结构。

反向去噪过程。 反向过程通过学习的神经网络 $\hat{\bm{x}}_\theta(\bm{x}_t, t)$ 预测干净的交互向量 $\bm{x}_0$（$x_0$-prediction 参数化）：

\[p_\theta(\bm{x}_{t-1}|\bm{x}_t) = \mathcal{N}(\bm{x}_{t-1}; \bm{\mu}_\theta(\bm{x}_t, t), \sigma^2(t)\bm{I})\] \[\bm{\mu}_\theta(\bm{x}_t, t) = \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}\bm{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}}(1-\alpha_t)}{1-\bar{\alpha}_t}\hat{\bm{x}}_\theta(\bm{x}_t, t)\]

其中 $\sigma^2(t) = \frac{(1-\alpha_t)(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}$ 为后验方差。与预测噪声 $\bm{\epsilon}$ 的标准 DDPM 不同，DiffRec 直接预测干净的交互向量 $\bm{x}_0$，因为推荐的输出空间（交互概率）具有明确的物理意义，$x_0$-prediction 使模型输出可直接解释为物品的交互概率。

训练目标。 DiffRec 的训练目标基于变分下界（ELBO），简化为 $x_0$-prediction 形式的均方误差：

\[\mathcal{L}({\bm{x}_0, \theta}) = \mathbb{E}_{t \sim \mathcal{U}(1,T)} \left[\omega(t) \|\hat{\bm{x}}_\theta(\bm{x}_t, t) - \bm{x}_0\|_2^2\right]\]

其中权重 $\omega(t) = \frac{\bar{\alpha}{t-1}}{1-\bar{\alpha}{t-1}} - \frac{\bar{\alpha}_t}{1-\bar{\alpha}_t}$ 由 ELBO 推导得出，对应不同时间步的信噪比差异。DiffRec 还提出了基于重要性采样的变体，按各时间步的损失方差分配采样概率 $p_t \propto \sqrt{\mathbb{E}[\mathcal{L}_t^2]}$，使训练更集中于困难时间步。

两个重要扩展。

L-DiffRec（Latent DiffRec）。 针对大规模物品空间的可扩展性问题，L-DiffRec 首先对物品进行聚类以压缩维度，然后在潜在空间（latent space）中执行扩散过程。这使得扩散模型的计算复杂度从与物品总数线性相关降低为与聚类数量相关，使其可以应用于百万级物品库的场景。
T-DiffRec（Temporal DiffRec）。 针对用户偏好随时间变化的问题，T-DiffRec 根据交互时间戳对用户交互进行重新加权，使模型更关注近期行为而非早期行为，从而编码用户偏好的时序动态。

实验结果。 DiffRec 在干净训练、噪声训练和时序训练三种设定下的多个数据集上均优于竞争基线（包括 VAE-based 和 GAN-based 方法），验证了扩散模型在推荐中的有效性 [Wang et al., 2023b]。

4.6.3 DiffuRec：扩散模型用于序列推荐

DiffuRec [Li et al., 2023b] 是将扩散模型引入序列推荐（Sequential Recommendation）的首次尝试，将 next-item 预测建模为物品表示空间中的去噪过程。

核心创新：分布式物品表示。 传统序列推荐方法将每个物品表示为固定的向量（点估计），这限制了模型捕捉物品多面性和用户多样兴趣的能力。DiffuRec 的关键创新在于将物品表示从固定向量扩展为分布式表示——通过扩散过程将目标物品的嵌入腐蚀为高斯分布，使物品表示能够自适应地反映用户的多重兴趣和物品的多面特性。

数学形式化。 设目标物品的嵌入向量为 $\bm{e}_0 \in \mathbb{R}^d$，用户历史行为序列为 $S_u = (v_1, v_2, \dots, v_n)$。DiffuRec 在物品嵌入空间（而非 DiffRec 的交互向量空间）中执行扩散过程。

前向扩散过程。 DiffuRec 采用标准 DDPM 的前向过程，将目标物品嵌入逐步腐蚀为高斯噪声：

\[q(\bm{e}_t|\bm{e}_{t-1}) = \mathcal{N}(\bm{e}_t; \sqrt{1-\beta_t}\bm{e}_{t-1}, \beta_t\bm{I}), \quad q(\bm{e}_t|\bm{e}_0) = \mathcal{N}(\bm{e}_t; \sqrt{\bar{\alpha}_t}\bm{e}_0, (1-\bar{\alpha}_t)\bm{I})\]

与 DiffRec 不同，DiffuRec 对前向过程不做特殊修改（即 $\bm{e}_T$ 趋近标准高斯）。这一设计差异的直觉是：DiffRec 操作在高维稀疏的交互向量上（维度 $=

\mathcal{I}

$，通常为百万级），完全腐蚀将丧失所有个性化信息；而 DiffuRec 操作在低维稠密的嵌入空间上（维度 $= d$，通常为 64-256），信息更集中，标准扩散即可有效工作。

条件反向去噪过程。 反向过程通过 Approximator 网络 $f_\theta$ 从噪声嵌入中恢复目标物品表示，以用户历史序列为条件：

\[p_\theta(\bm{e}_{t-1}|\bm{e}_t, S_u) = \mathcal{N}(\bm{e}_{t-1}; \bm{\mu}_\theta(\bm{e}_t, t, S_u), \sigma^2(t)\bm{I})\]

Approximator 网络 $f_\theta(\bm{e}_t, t, S_u) \approx \bm{e}_0$ 接收三个输入：(1) 当前噪声嵌入 $\bm{e}_t$，(2) 时间步编码 $t$，(3) 用户历史序列的编码 $\bm{h}_S = \text{Encoder}(S_u)$（使用 Transformer 编码器）。网络直接预测干净嵌入 $\bm{e}_0$，均值由 $x_0$-prediction 公式计算。这一条件化机制使去噪过程能够感知用户的个性化偏好，将通用的噪声恢复转化为个性化的物品生成。

训练目标。 DiffuRec 的训练目标为简化的变分下界，以 $\bm{e}_0$-prediction 形式表示：

\[\mathcal{L}_{\text{DiffuRec}} = \mathbb{E}_{t \sim \mathcal{U}(1,T)} \left[\|f_\theta(\bm{e}_t, t, S_u) - \bm{e}_0\|_2^2\right]\]

该目标与标准序列推荐的对比学习损失（如 InfoNCE）存在本质区别：序列推荐通常优化「将目标物品嵌入拉近、将负样本推远」的对比目标，而 DiffuRec 优化「从噪声中重构目标嵌入」的生成目标。生成式目标的优势在于不依赖负样本构造策略，避免了负采样偏差问题。

舍入操作（Rounding）。 反向去噪完成后得到的是连续嵌入 $\hat{\bm{e}}0 = f\theta(\bm{e}_1, 1, S_u)$，需要映射回离散物品空间。DiffuRec 通过计算 $\hat{\bm{e}}_0$ 与所有候选物品嵌入的相似度进行舍入：

\[\hat{v} = \arg\max_{v \in \mathcal{I}} \text{sim}(\hat{\bm{e}}_0, \bm{e}_v)\]

其中 $\text{sim}(\cdot, \cdot)$ 为内积或余弦相似度。这一舍入操作是扩散模型用于推荐的核心瓶颈之一——连续空间的生成精度直接决定了离散空间的推荐质量，量化误差 $|\hat{\bm{e}}0 - \bm{e}{\hat{v}}|$ 是不可避免的信息损失来源。

实验结果。 DiffuRec 在四个公开数据集上大幅超越包括 SASRec、BERT4Rec 在内的强基线方法 [Li et al., 2023b]。

4.6.4 DreamRec：从”学习分类”到”学习生成”的范式转换

DreamRec [Yang et al., 2023] 从一个更激进的视角重新审视扩散模型在序列推荐中的角色——它不是在现有分类范式上叠加扩散机制，而是主张彻底摒弃”学习分类”（learning-to-classify）范式，转向”学习生成”（learning-to-generate）范式。该工作发表于 NeurIPS 2023，与 DiffuRec 同期但在设计哲学上存在根本差异。

核心思想：Oracle Item 生成。 DreamRec 的关键洞察来自对人类决策过程的类比——用户在选择物品时，通常先在心中”想象”一个理想物品（oracle item），然后在候选池中寻找最匹配的实际物品。基于这一认知模型，DreamRec 将 next-item 预测重新定义为”生成用户心中的 oracle item”，而非在候选池中进行分类或排序。

数学形式化。 设 oracle item 的嵌入为 $\bm{x}_0 \in \mathbb{R}^d$（即 target item embedding），用户历史序列编码为引导条件 $\bm{c} = \text{Encoder}(S_u)$。DreamRec 在 $\bm{x}_0$ 的嵌入空间中执行扩散过程——与 DiffuRec 不同的是，其目标不是恢复已知正样本嵌入，而是生成可能不对应任何真实物品的 oracle item 表示。

训练目标。 DreamRec 采用简化的去噪目标，仅使用正样本（target item）驱动扩散训练，完全消除负采样：

\[\mathcal{L}_{\text{DreamRec}} = \mathbb{E}_{t \sim \mathcal{U}(1,T)} \left[\|\bm{\epsilon}_\theta(\bm{x}_t, t, \bm{c}) - \bm{\epsilon}\|_2^2\right]\]

其中 $\bm{x}t = \sqrt{\bar{\alpha}_t}\bm{x}_0 + \sqrt{1-\bar{\alpha}_t}\bm{\epsilon}$，$\bm{\epsilon} \sim \mathcal{N}(\bm{0}, \bm{I})$。与 DiffuRec 的 $\bm{e}_0$-prediction 不同，DreamRec 采用标准的 $\bm{\epsilon}$-prediction 参数化，去噪网络 $\bm{\epsilon}\theta$ 预测添加的噪声而非干净嵌入。这一差异的直觉在于：DiffuRec 需要精确恢复已知正样本的嵌入（$\bm{e}_0$-prediction 更直接），而 DreamRec 生成的是”理想物品”表示，$\bm{\epsilon}$-prediction 在生成任务中提供更稳定的训练梯度。

Classifier-Free Guidance 推理。 DreamRec 的核心推理机制借鉴了图像生成中的 classifier-free guidance（CFG）[Ho & Salimans, 2022]。在训练时以概率 $p_{\text{uncond}}$ 随机丢弃条件 $\bm{c}$，使模型同时学习条件和无条件去噪；在推理时通过 guidance scale $w$ 控制生成方向：

\[\tilde{\bm{\epsilon}}_\theta(\bm{x}_t, t, \bm{c}) = (1+w)\bm{\epsilon}_\theta(\bm{x}_t, t, \bm{c}) - w\bm{\epsilon}_\theta(\bm{x}_t, t)\]

其中 $\bm{\epsilon}_\theta(\bm{x}_t, t)$ 为无条件预测（$\bm{c}$ 被置零），$w > 0$ 放大条件信号对去噪方向的影响。$w$ 的直觉意义是：$w=0$ 退化为标准条件去噪，$w \to \infty$ 使生成结果完全由用户历史偏好主导（可能过拟合历史兴趣），适中的 $w$（DreamRec 中典型值为 $w \in [0.5, 2.0]$）在偏好忠实度与探索性之间取得平衡。这一机制赋予 DreamRec 在推理时灵活调节推荐策略的能力——增大 $w$ 强化个性化，减小 $w$ 增加多样性——而无需重新训练模型。

Oracle Item 检索。 去噪完成后，生成的 oracle item 嵌入 $\hat{\bm{x}}_0$ 通过最近邻检索映射到实际物品：

\[\hat{v} = \arg\max_{v \in \mathcal{I}} \text{sim}(\hat{\bm{x}}_0, \bm{e}_v)\]

这一步与 DiffuRec 的舍入操作形式相同，但语义不同——DiffuRec 的 $\hat{\bm{e}}_0$ 是对已知正样本的重构，而 DreamRec 的 $\hat{\bm{x}}_0$ 是对”不存在的理想物品”的生成，后者在嵌入空间中的位置可能不与任何真实物品精确对应。

与 DiffRec/DiffuRec 的关键区别。 DreamRec 与前两个扩散推荐工作的核心差异在于对负样本的处理：

（1）消除负采样。 DiffRec 和 DiffuRec 本质上仍在分类框架内运作——DiffRec 通过去噪恢复用户交互向量（隐式区分正负交互），DiffuRec 通过去噪恢复正样本嵌入（训练中仍依赖正负样本的对比信号）。DreamRec 则完全抛弃负采样，仅通过正样本驱动扩散过程，直接在嵌入空间中”生成”用户偏好的理想物品表示。这一设计避免了负采样中普遍存在的噪声监督问题——随机采样的负样本可能包含用户实际感兴趣但未交互的物品，错误的负信号会稀释偏好学习的效果。

（2）引导机制的差异。 DiffuRec 使用 Transformer 编码器处理用户历史序列，将编码结果作为去噪网络的条件输入（cross-attention 注入）。DreamRec 同样使用 Transformer 编码器，但将历史行为编码为”引导表示”（guidance representation），通过 classifier-free guidance 机制控制去噪过程的方向——在推理时通过调节 guidance scale 参数，可以灵活控制生成结果对用户历史偏好的忠实程度与探索性之间的平衡。

（3）操作空间的选择。 DiffRec 在高维稀疏的用户-物品交互向量空间中操作（维度 $=

\mathcal{I}

$），DiffuRec 在目标物品的嵌入空间中操作（维度 $= d$），DreamRec 则在”oracle item”的嵌入空间中操作——这看似与 DiffuRec 相同，但 DreamRec 的目标不是恢复已知正样本的嵌入，而是生成一个可能不对应任何真实物品的理想嵌入，最终通过最近邻检索映射到实际物品。

技术意义。 DreamRec 的贡献在于提供了扩散推荐的一个概念性替代方案：将推荐从”在已有物品中选择”转变为”先想象再匹配”。这一范式与生成式推荐的核心理念（将推荐视为生成问题）更加一致。然而，DreamRec 也面临与 DiffuRec 相同的连续-离散转换瓶颈——生成的 oracle item 嵌入最终仍需通过最近邻检索映射回离散物品空间，量化误差不可避免。此外，消除负采样虽然避免了负样本噪声，但也失去了对比学习提供的决策边界信息，在物品嵌入空间中密集的区域（语义相近的物品聚集处）可能导致区分能力不足 [Yang et al., 2023]。

4.6.5 与自回归生成式推荐的对比分析

扩散模型与自回归模型代表了生成式推荐中两条本质不同的技术路线，其核心差异与互补性值得深入分析：

维度	自回归（AR）生成式推荐	扩散（Diffusion）生成式推荐
生成方式	序列化逐 token 生成	并行去噪生成
推理延迟	与序列长度线性相关（$O(L)$ 步解码）	与去噪步数相关，但空间维度可并行
物品表示	离散语义 ID（天然适配）	连续嵌入空间（需连续-离散转换）
噪声建模	无显式噪声建模	前向过程天然建模数据噪声
多样性控制	需通过采样温度或约束解码控制	扩散过程的随机性天然支持多样性
工业部署	已有大规模部署（OneRec、PLUM 等）	目前主要停留在学术验证阶段

核心挑战：连续-离散转换。 扩散模型在推荐中面临的最大技术挑战是连续-离散转换问题。推荐的最终输出是离散的物品 ID，而扩散模型天然在连续空间中操作。DiffuRec 通过舍入操作将连续嵌入映射回离散物品空间，但这一过程引入了量化误差。相比之下，自回归模型通过语义 ID 直接在离散 token 空间中生成，避免了这一问题。如何在扩散框架中优雅地处理离散物品空间——例如通过离散扩散模型（Discrete Diffusion Models）或结合 VQ-VAE 的混合方案——是该方向的核心开放问题。

互补性。 两条路线并非零和竞争关系。自回归模型在显式序列建模和离散 ID 生成方面具有优势，适合需要精确物品检索的场景；扩散模型在连续空间建模和噪声鲁棒性方面具有优势，适合需要探索性推荐和隐式偏好建模的场景。未来可能出现混合架构——例如用扩散模型生成用户偏好的连续表示，再用自回归模型将其解码为离散物品序列。

4.7 非自回归生成式推荐（Non-Autoregressive Generative Recommendation）

4.7.1 技术动机

自回归（AR）生成是当前生成式推荐的主流范式，但其序列化解码的固有特性导致推理延迟与生成序列长度线性相关（详见 7.0 节的范式局限分析）。在工业推荐系统中，实时性是核心约束——用户期望在数十毫秒内获得推荐结果，自回归解码的延迟瓶颈严重制约了生成式推荐在延迟敏感场景（如广告竞价、实时重排序）中的部署。

非自回归（Non-Autoregressive, NAR）生成提供了一条从根本上打破这一延迟瓶颈的技术路线。NAR 方法在单步或少数几步内并行生成所有输出 token，将推理延迟从 $O(L)$ 降低到 $O(1)$ 或 $O(\log L)$。NAR 生成在机器翻译领域已有成熟方案（如 CMLM [Ghazvininejad et al., 2019]），但其在推荐领域的应用直到近期才开始出现突破性进展。

4.7.2 NAR4Rec：非自回归生成式重排序

NAR4Rec [Ren et al., 2024] 是将非自回归生成引入推荐系统的代表性工作，由快手提出并已部署于其拥有 3 亿以上日活用户的推荐系统中。

问题定义。 NAR4Rec 聚焦于推荐系统的重排序（reranking）阶段，将其建模为一个排列优化问题：给定一组候选物品，生成最优的展示排列。传统自回归方法逐步生成排列中的每个位置，而 NAR4Rec 一次性并行生成完整排列。

核心技术创新。

匹配模型（Matching Model）。 针对 NAR 训练中正样本（高质量排列）稀疏的问题，NAR4Rec 引入匹配模型来处理稀疏训练样本和动态候选集，弥补了 NAR 方法在数据效率上的不足。
序列级不似然训练（Sequence-level Unlikelihood Training）。 采用序列级不似然目标函数，显式区分可行序列（高质量排列）和不可行序列（低质量排列），使模型学习到排列质量的全局判别能力。
对比解码（Contrastive Decoding）。 针对 NAR 方法因并行生成而缺乏位置间依赖建模的问题，NAR4Rec 引入对比解码策略，在推理阶段捕捉目标物品之间的相关性，弥补了 NAR 独立性假设的不足。
生成-评估范式（Generator-Evaluator Paradigm）。 NAR4Rec 采用生成器-评估器的两阶段框架：生成器快速并行产出多个候选排列，评估器基于列表级打分选择最优排列。这一范式将生成效率与排列质量解耦。

工业部署效果。 NAR4Rec 已在快手的在线推荐系统中部署，服务 3 亿以上日活用户。其核心优势在于推理速度：非自回归并行生成使得重排序阶段的延迟从 AR 方法的 $O(N)$ 降至 $O(1)$（相对于排列长度），在典型的 30-50 候选重排序场景中，推理延迟相比逐步自回归解码可实现数量级的降低。快手的在线 A/B 测试表明，NAR4Rec 在保持推荐质量（以 NDCG、MAP 等排序指标衡量）的前提下，显著提升了系统吞吐量 [Ren et al., 2024]。

4.7.3 NLGR：基于邻居列表的非自回归生成式重排序

NLGR [Wang et al., 2025d] 是由美团提出的非自回归生成式推荐方法，同样聚焦于重排序阶段，并已部署于美团外卖推荐平台。

核心问题：目标不一致性。 NLGR 识别了 NAR 重排序中的一个关键问题——生成器倾向于拟合曝光分布的局部最优（即模仿历史展示模式），而非在组合空间中探索真正最优的排列。这导致生成器的优化目标与系统的全局最优目标不一致。

技术创新。

组合空间中的邻居列表。 NLGR 利用组合空间中的邻居列表增强训练，帮助生成器感知排列之间的相对质量差异，找到正确的优化方向，而非局限于拟合曝光分布的局部最优。
基于采样的非自回归生成。 NLGR 提出了一种新颖的基于采样的 NAR 生成方法，允许生成器在邻居列表之间灵活跳转，而非逐个位置顺序生成物品。这一设计使 NAR 生成器在保持并行推理效率的同时，具备了探索组合空间的能力。

工业部署效果。 NLGR 在美团外卖推荐平台的在线 A/B 测试中取得了显著的业务指标提升。作为 WWW 2025 Industry Track 论文，其部署验证了 NAR 方法在本地生活推荐场景中的工业可行性——NAR 并行生成的延迟优势在外卖这类对响应速度极为敏感（用户决策窗口短、候选列表动态性高）的场景中尤为关键 [Wang et al., 2025d]。

4.7.4 NAR vs AR：推荐中的权衡分析

维度	自回归（AR）	非自回归（NAR）
推理延迟	$O(L)$，与序列长度线性相关	$O(1)$ 或 $O(\log L)$，近常数时间
位置依赖建模	天然建模——每步可见前序所有输出	需额外机制（如对比解码、迭代精化）
生成质量	通常更高——充分利用自回归分解	可能略低——独立性假设引入质量损失
工业部署	延迟敏感场景受限	天然适合延迟敏感场景（广告、实时重排）
训练难度	标准交叉熵损失，训练稳定	需序列级损失设计，正样本稀疏问题

延迟估计与架构分析。 虽然 NAR4Rec 和 NLGR 的原论文未公布绝对延迟数字，但可基于架构特征进行合理估计。AR 重排序对 $N$ 个候选的排列生成需要 $N$ 步解码，每步约 1-3ms（取决于模型规模和硬件），总延迟 30-150ms（$N=30$-$50$）。NAR 方法将其压缩为 1 步并行前向传播（约 3-8ms）加上评估器打分（约 2-5ms），总延迟约 5-13ms——相比 AR 方法降低约 70-90%。这一量级的延迟改善对于重排序阶段（通常要求 <20ms p99）至关重要，也解释了为什么 NAR 方法率先在延迟最敏感的重排序环节实现工业部署。

关键洞察。 NAR4Rec 和 NLGR 的工业实践证明，NAR 方法在推荐重排序场景中已具备实用价值。两者均采用生成器-评估器范式，利用 NAR 生成器的并行性快速产出候选排列，再用评估器筛选最优。这一范式巧妙地将 NAR 的效率优势与质量保障解耦，是 NAR 在推荐中落地的关键设计模式。

值得注意的是，当前 NAR 推荐方法主要聚焦于重排序阶段（在固定候选集上优化排列），尚未扩展到端到端的全链路推荐（从全量物品库中生成推荐列表）。将 NAR 方法从重排序扩展到检索阶段——即在超大规模物品空间中并行生成推荐——是一个重要的开放方向。此外，NAR 与 AR 的混合架构（如在检索阶段使用 AR 生成候选集，在重排序阶段使用 NAR 优化排列）也是值得探索的融合路线。

第 5 章工业部署实践

生成式推荐从学术原型走向工业生产，面临一系列在实验室环境中不显著但在亿级用户规模下成为核心瓶颈的工程挑战。本章从延迟与吞吐优化、超大规模物品空间处理、在线学习与增量更新、典型案例分析四个维度，系统梳理 2025–2026 年间工业部署实践中的关键技术选择与工程权衡。

5.1 延迟与吞吐优化

5.1.1 自回归解码的延迟瓶颈

生成式推荐的核心推理过程是自回归解码：模型逐步生成推荐物品的语义 ID token 序列，每一步解码依赖前一步的输出。这与传统推荐系统的并行打分模式形成了根本性差异——传统系统对所有候选物品独立计算得分，可以充分利用 GPU 的并行计算能力；而自回归解码的序列依赖性使得解码步数成为推理延迟的线性因子。

以典型的语义 ID 配置为例：3 层码本、每层 256–1024 码字，生成一个物品需要 3 步自回归解码。若使用 beam search（beam width = 512）生成推荐列表，每步解码需要对所有 beam 候选进行前向计算。OneRec-V2 在部署中使用 1B 参数模型、beam size 512，在 L20 GPU 上实现了 36ms 的推理延迟和 62% 的 MFU（Model FLOPs Utilization）[Zhou et al., 2025]。相比之下，传统级联系统中精排模型的单次推理通常在 5–15ms 之间，但需要对数百个候选逐一打分。

5.1.2 Lazy Decoding：计算重分配策略

OneRec-V2 提出的 lazy decoder-only 架构 [Zhou et al., 2025] 是解决自回归解码效率问题的核心创新。其核心洞察是：在 OneRec-V1 的 encoder-decoder 架构中，97.66% 的计算量被消耗在用户行为序列的编码（context encoding）上，仅 2.34% 用于实际的目标物品生成（target decoding）。随着上下文长度增加到 3000 token，这一比例进一步恶化到 0.41%。

Lazy decoder-only 架构通过以下设计解决这一问题：

消除编码器瓶颈。 用轻量级的 Context Processor 替代完整编码器，将用户特征直接映射为跨注意力的 key-value 对，供解码器多层共享。相比 encoder-decoder 的 1B 参数配置（encoder 0.5B + decoder 0.5B，总计 346 GFLOPs），lazy decoder-only 在同等参数规模下仅需 18.89 GFLOPs，计算量减少 94%。
KV 共享机制。 多个解码器层共享同一组 context key-value 对（由 $L_{\text{kv}}$ 参数控制），配合 Grouped Query Attention（GQA），将 KV cache 的内存占用从 94M 降低到 7M（$G_{\text{kv}} = 1$ 时），几乎不影响生成质量（收敛 loss 3.27 vs 3.27）。
效率收益。 训练资源减少 90%，使得模型可以从 0.5B 扩展到 8B 参数，损失从 3.33 持续下降到 3.19。MoE 变体（4B 总参数、0.5B 激活）以 0.5B dense 模型的计算成本达到了 2B dense 模型的性能水平。

5.1.3 用户级压缩与子线性推理

MTGR [Han et al., 2025] 提出了另一种解决推理效率的思路——用户级压缩（user-level compression）。传统 DLRM 的推理成本与候选物品数量线性相关：每个候选需要独立计算一次打分。MTGR 将同一用户的所有候选物品聚合为一个样本（user sample aggregation），用户表示（profile、行为序列）只需编码一次，所有候选物品共享该表示。

具体而言，MTGR 将用户特征（$\mathbf{U}$）、长期行为序列（$\vec{\mathbf{S}}$，最大长度 1000）、实时行为（$\vec{\mathbf{R}}$，最大长度 100）和所有候选物品（$[\mathbf{C}_i, \mathbf{I}_i]$）统一编码为 token 序列，通过一次 HSTU 前向传播同时产出所有候选的排序分数。这使得推理成本从与候选数量线性相关降低为子线性关系。在美团外卖推荐的在线部署中，MTGR-large（65x FLOPs per sample vs DLRM）的推理成本反而比 DLRM baseline 降低了 12%。

5.1.4 Batch Serving 与硬件优化

PLUM [He et al., 2025] 在 YouTube 的部署中面临数十亿用户的服务规模。其效率优化策略包括：

样本效率。 PLUM 的 900M MoE 模型每天仅需训练约 2.5 亿样本，而传统 LEM（Large Embedding Model）需要数十亿样本。总训练 FLOPs 不到 LEM 的 0.55 倍。这种极高的样本效率使得大模型在工业场景中可行。
MoE 架构。 PLUM 使用 Gemini-1.5 MoE 家族的模型，900M 激活参数（总参数约 4.2B）。MoE 的稀疏激活特性使得推理时每个 token 仅需计算部分 expert，大幅降低实际计算量。
TPU 集群部署。 PLUM 使用 1024 个 Google v6e TPU（各 32GB HBM）进行训练，4 个 trainer 并行各占 256 TPU。beam search 用于在线推理解码。
在线/离线混合推理。 PLUM 同时支持在线实时推理和离线批量推理，服务于 YouTube 长视频和短视频的多个核心界面，面向数十亿用户。

5.2 超大规模物品空间处理

5.2.1 从 ANN 到生成式检索

传统推荐系统的候选生成阶段依赖近似最近邻检索（ANN）：将物品和用户编码为向量，通过 HNSW、ScaNN 等索引结构实现亚毫秒级的向量检索。这种方法在数十亿物品规模下已非常成熟，但存在点积表达能力的理论瓶颈——双塔模型的内积匹配无法表达某些复杂的用户-物品交互模式（如需要高阶特征组合的偏好模式）。

生成式检索通过自回归解码直接生成目标物品的语义 ID，绕过了向量检索的瓶颈。但这也引入了新的挑战：如何在解码过程中高效地约束生成空间，确保生成的 token 序列对应有效物品？

5.2.2 前缀树约束解码

语义 ID 的层级结构天然形成一棵前缀树（trie）：第一层码字是根节点的子节点，每个码字下挂载第二层码字，依此类推。在推理时，beam search 的每一步仅需在当前前缀下的有效码字中搜索，而非整个码本空间。

PLUM 在 YouTube 的实践中报告了以下语义 ID 统计：使用多分辨率码本（第一层 2048，逐层减半：$2048/2^{level-1}$），SIDv2 配置下物品唯一性达到 96.7%（即 96.7% 的视频具有唯一的 SID），幻觉率（生成的 SID 不对应任何有效物品）在 SFT 后低于 5% [He et al., 2025]。

5.2.3 码本设计的工业实践

Semantic IDs Handbook [Ju et al., 2025] 总结了码本设计的工业最佳实践。在超大规模物品库中，码本配置需要平衡三个目标：

表示容量。 $K^L$ 需覆盖全量物品库。典型配置 $K=256, L=4$ 可表示约 43 亿物品。
解码效率。 层级数 $L$ 直接决定自回归解码步数。$L=3$ 意味着每个物品需 3 步解码。
语义质量。 码本大小 $K$ 影响每层的区分度。PLUM 的多分辨率策略（第一层高分辨率、后续层逐步降低）在保持码本紧凑的同时提升了物品区分度，Video Recall@10 从 baseline 的 12.3% 提升到 14.4%。

MTGR 采用了不同的路径——不使用语义 ID，而是保留传统 DLRM 的全部特征（包括交叉特征），通过 HSTU 架构直接在候选物品上做判别式打分。美团的物品库规模为约 430 万物品（训练集），用户规模 2.1 亿。这种方案避免了语义 ID 的构建和更新成本，但无法实现”生成式检索”——它本质上是一个高效的生成式排序器而非端到端的检索-排序统一系统。

5.3 在线学习与增量更新

5.3.1 流式训练与实时适应

工业推荐系统的用户偏好和物品库持续变化，模型需要快速适应这些变化。所有已部署的生成式推荐系统都采用了某种形式的在线/流式训练：

MTGR 使用基于 TorchRec 的流式训练框架。关键优化包括：(1) 动态哈希表替代静态 embedding 表，支持实时插入/删除稀疏 ID；(2) 动态 batch size 平衡 GPU 间的计算负载（用户行为序列长度的长尾分布导致固定 batch size 下的负载不均）；(3) 三流水线并行（copy/dispatch/compute）最大化训练吞吐。优化后的框架相比原生 TorchRec 提升了 1.6–2.4 倍训练吞吐，支持超过 100 GPU 的规模化训练 [Han et al., 2025]。
OneRec-V2 使用印象数据流式训练（streaming training on impression data），仅对最新一次曝光的物品计算损失（New Impression Only Organization），避免了用户中心组织方式的时间泄漏和流行度偏差问题 [Zhou et al., 2025]。
PLUM 的 SFT 阶段使用最新数据和历史数据的混合进行持续微调，捕获用户实时兴趣变化。训练数据覆盖 7 天连续数据，评估在第 8 天进行 [He et al., 2025]。

5.3.2 语义 ID 版本管理

语义 ID 的在线更新是生成式推荐工业部署中独有的挑战。物品库的动态变化（新物品上架、旧物品下架）要求语义 ID 定期重建，但重建后，之前训练的模型中的 ID 映射可能失效。

PLUM 的实践提供了有价值的经验：(1) 使用协同信号（co-occurrence contrastive loss）训练 RQ-VAE，使 SID 不仅编码内容语义还编码行为信号；(2) 多模态融合（文本+视觉嵌入）作为 RQ-VAE 输入，提高 SID 对新物品的覆盖能力；(3) CPT（Continued Pre-training）阶段使 LLM 学会 SID 与文本的关联，即使 SID 更新，CPT 后的模型仍保持基本的 SID 理解能力。

Semantic IDs Handbook [Ju et al., 2025] 建议使用码本热启动（warm start）策略：新版本码本以上一版本的码字为初始化进行训练，减少语义漂移（semantic drift）。同时，通过增量更新策略，仅对新增/变更物品重新分配 SID，而非全量重建。

5.3.3 强化学习的在线迭代

OneRec-V2 的实践揭示了一个重要发现：当生成式推荐系统服务足够大的流量份额时（OneRec 服务了快手 25% 的流量），可以利用自身生成的推荐结果上的用户反馈进行自我迭代优化。实验表明，仅使用传统流水线样本进行 RL 训练时，Duration 指标提升但交互指标下降（Video View -0.901%）；加入 OneRec 自身生成的样本后，所有指标全面提升（Video View +0.716%、Like +2.897%、Follow +3.661%、Comment +6.392%）[Zhou et al., 2025]。这证实了生成式推荐系统具备自我改进（self-improvement）的潜力。

5.4 典型案例分析

5.4.1 MTGR（美团，本地生活推荐）

技术路线： HSTU 架构 + DLRM 特征保留 + 判别式打分。MTGR 不走端到端生成路线，而是将 HSTU 的序列建模能力与传统 DLRM 的特征工程（包括交叉特征）结合，本质上是一个”生成式增强的排序器”。

架构选择的动机： MTGR 团队发现，去除交叉特征的纯生成式方法会导致性能严重下降，且”scaling up 无法弥补交叉特征缺失的损失”。因此 MTGR 选择保留全部 DLRM 特征，仅用 HSTU 架构替代传统模型的序列处理和特征交互模块。

关键技术创新：

Group-Layer Normalization（GLN）。 对不同语义空间的 token（用户特征、行为序列、候选物品）分组归一化，确保异构信息在进入注意力计算前具有一致的分布。消融实验显示 GLN 的增益与从 MTGR-small 到 MTGR-medium 的增益相当。
动态掩码策略。 静态序列（$\mathbf{U}, \vec{\mathbf{S}}$）使用全注意力，实时行为（$\vec{\mathbf{R}}$）使用因果掩码，候选物品之间使用对角掩码（仅对自身可见），避免信息泄漏。

工程指标：

模型规模：MTGR-large，$n_{\text{layer}}=15, d_{\text{model}}=768, n_{\text{heads}}=3$，55.76 GFLOPs/example（vs DLRM baseline 0.86 GFLOPs/example，65 倍计算量）。
训练配置：16 × NVIDIA A100 GPU，batch size 96，使用 6 个月以上的数据训练。
在线效果： PV_CTR +1.90%，UV_CTCVR +1.02%（vs 经过 2 年持续优化的 DLRM baseline）。
成本： 训练成本与 DLRM 持平，推理成本降低 12%（得益于用户级压缩的子线性推理特性）。
数据规模： 2.1 亿用户，430 万物品，237 亿次曝光。

5.4.2 PLUM（YouTube/Google，视频推荐）

技术路线： 预训练 LLM 适配 + 语义 ID 生成式检索。PLUM 不从零训练推荐模型，而是将 Gemini-1.5 MoE 系列预训练语言模型通过 CPT + SFT 适配为推荐生成器。

三阶段训练流程：

语义 ID 训练（SIDv2）。 多模态嵌入融合 + 多分辨率码本 + 渐进掩码 + 协同对比损失。SIDv2 将物品唯一性从 94.0% 提升到 96.7%，Recall@10 从 12.3% 提升到 14.4%。
CPT（Continued Pre-training）。 在用户行为数据（50%）和视频元数据（50%）的混合语料上进行 100 万步训练（约 2600 亿 token），使 LLM 学会 SID 与文本的对齐。CPT 使下游检索任务的 Recall@10 从 0.23 提升到 0.28（LLM 初始化 + CPT vs 仅 LLM 初始化）。
SFT（Supervised Fine-Ning）。 在用户点击数据上微调，输入为用户历史 SID 序列 + 文本特征 + 数值特征（约 1536 token，覆盖近 100 次观看），输出为下一个观看视频的 SID。

Scaling Law 验证： PLUM 在 MoE-110M、370M、900M、3B 四个规模上验证了推荐检索任务的 scaling law。训练/评估 loss 与 Iso-FLOPS 呈幂律关系。Recall@10 在评估集上持续改善且较少出现饱和迹象。最优模型规模随计算预算增大而逐步增大，与 NLP 领域的 Chinchilla 规律一致。

在线效果： 与高度优化的生产 LEM baseline 相比，PLUM 的推荐候选具有 2.6 倍（长视频）和 13.24 倍（短视频）的有效词汇量（effective vocab size），CTR 提升 1.42 倍（长视频）和 1.33 倍（短视频）。在线 A/B 测试中，加入 PLUM 候选后 Engaged Users +0.07%/+0.28%，Panel CTR +0.76%/+4.96%，Views +0.80%/+0.39%（长视频/短视频）。

关键工程约束： PLUM 的推荐候选库包含数十亿视频（billions-scale corpus），模型需在此规模下完成 SID 到视频的映射。输入序列长度固定为 1536 token。

5.4.3 OneRec（快手，短视频推荐）

技术路线： 端到端生成式推荐 + 强化学习对齐。OneRec 是最激进的工业实践——用统一的生成模型完全替代传统的多阶段级联流水线。

架构演进：

OneRec-V1（encoder-decoder）。 编码器处理用户行为序列，解码器自回归生成目标物品的 3 个语义 ID token。实现了 23.7% 训练 MFU 和 28.8% 推理 MFU，运营成本仅为传统流水线的 10.6%。
OneRec-V2（lazy decoder-only）。 消除编码器，用 Context Processor 将用户特征映射为共享的 KV 对。计算量减少 94%，训练资源减少 90%，成功扩展到 8B 参数。1B 模型在 L20 GPU 上推理延迟 36ms，MFU 62%。

强化学习实践：

V1： 基于奖励模型的 PPO/ECPO，但受限于采样效率（仅 1% 用户的 on-policy rollout）和潜在的 reward hacking。
V2： 引入基于真实用户反馈的 Duration-Aware Reward Shaping——按视频时长分桶归一化用户观看时间，消除时长偏差。提出 GBPO（Gradient-Bounded Policy Optimization），通过 BCE loss 的梯度上界约束 RL 梯度，解决负样本梯度爆炸问题。

在线效果： OneRec-V2 vs V1 在快手主站/极速版的 5% 流量 A/B 测试中，App Stay Time +0.467%/+0.741%，LT7（7 日留存）+0.069%/+0.034%，同时 Like +3.924%/+5.393%、Follow +4.730%/+5.627%、Comment +5.394%/+5.013%，无明显跷跷板效应。在全量流量（caching disabled）实验中，交互指标增幅达 9.6%–29.2%，但冷启动视频曝光下降 44.7%/36.7%，聚类密度上升 11.7%/7.9%，暴露了生成式推荐在内容生态多样性上的隐患。

部署规模： 快手/快手极速版，4 亿日活用户。OneRec 已服务 25% 的总流量。

5.4.4 OxygenREC（快手，电商推荐）

技术路线： 快慢思考 + 指令跟随的生成式框架。OxygenREC 面向快手电商场景，通过近线 LLM 生成推理指令（Contextual Reasoning Instructions）与实时低延迟的 encoder-decoder 推荐器结合，实现深度意图推理与低延迟服务的统一。

核心技术组件：

IGR（Instruction-Guided Retrieval）。 利用 LLM 生成的推理指令筛选与用户意图最相关的历史行为，而非简单的时间序列截断。
Q2I（Query-to-Item）loss。 强制生成的指令与推荐物品之间的语义一致性。
SA-GCPO（Soft Adaptive Group Clip Policy Optimization）。 统一多场景的奖励映射，支持”训练一次、多场景部署”。

工业价值： OxygenREC 在快手电商核心场景中取得了 GMV 和订单量的显著提升 [Hao et al., 2025]。通过将场景信息转化为可控指令，实现了多电商场景的统一部署，减少了为每个场景单独训练和部署模型的工程负担。

5.4.5 四大系统的对比与总结

维度	MTGR（美团）	PLUM（YouTube）	OneRec（快手）	OxygenREC（快手）
场景	本地生活（外卖）	视频推荐	短视频推荐	电商推荐
架构	HSTU（encoder-only）	Gemini MoE（decoder-only）	Lazy decoder-only	Encoder-decoder + 近线 LLM
物品表示	保留 DLRM 特征（含交叉特征）	语义 ID（SIDv2）	语义 ID（3 token）	指令条件生成
是否替代级联	否（增强排序器）	部分（检索阶段）	是（完全替代）	否（独立生成通道）
模型规模	约 55 GFLOPs/sample	900M 激活 / 4.2B 总参	1B（已验证到 8B）	未公开
推理延迟	推理成本比 DLRM 降低 12%	未公开	36ms（L20 GPU）	未公开
训练基础设施	16 × A100	1024 × v6e TPU	未公开	未公开
核心在线指标	UV_CTCVR +1.02%	Panel CTR +0.76%/+4.96%	App Stay Time +0.467%/+0.741%	GMV/订单量提升
RL/对齐	无	有（reward-weighted SFT）	有（GBPO + Duration-Aware Reward）	有（SA-GCPO）

技术路线的关键分歧。 四大系统在一个核心问题上做出了不同选择：是否完全放弃传统特征工程？

MTGR 选择保留所有 DLRM 特征，用 HSTU 架构获得 scaling 能力，但保持判别式训练目标。这是最保守但也最稳健的路线——MTGR 的实验明确表明，去除交叉特征的性能损失无法通过 scaling 弥补。
PLUM 走语义 ID + PLM 适配路线，完全抛弃 embedding table，用 SID 替代物品 ID。这是在检索阶段验证有效的路线，但排序阶段仍依赖传统模型。
OneRec 走最激进的端到端路线，用语义 ID + 自回归生成完全替代级联系统，并通过 RL 对齐用户偏好。这条路线在短视频场景取得了最显著的业务收益，但也暴露了冷启动和内容多样性的风险。
OxygenREC 走快慢思考融合路线，利用 LLM 的推理能力增强推荐质量，同时通过分离架构控制延迟。

共性启示。 尽管技术路线分歧，四大系统共享以下工程实践原则：(1) 流式训练以实时适应用户偏好变化；(2) 混合精度训练和算子融合以控制计算成本；(3) 用户级特征共享以实现子线性推理；(4) 逐步灰度放量以控制线上风险。这些原则为后续工业系统的部署提供了可复用的工程方法论。

5.5 成本效益分析与部署建议

5.5.1 结构化评估框架

生成式推荐系统的工业部署决策不应仅基于离线指标提升，而需要在多个维度上进行结构化的成本效益权衡。我们提出五维评估框架（各维度的量化参考数据来自 5.4 节案例分析，5.5.4 节进一步提供跨系统的 TCO 对比表）：

训练成本：包括预训练（语义 ID 学习 + 模型预训练）和持续训练的 GPU/TPU 时长与能耗。大规模端到端系统（如 OneRec 1B-8B 参数）的训练成本显著高于传统级联系统中单个模块的训练成本，但总体可能低于维护多套独立模型的累计成本。量化参考：MTGR-large 使用 16×A100 GPU、batch size 96 训练 6 个月以上数据，单样本 55.76 GFLOPs（vs DLRM baseline 0.86 GFLOPs，65 倍计算量），但训练总成本与 DLRM 持平 [Han et al., 2025]；PLUM 900M MoE 模型使用 1024×v6e TPU 训练，总训练 FLOPs 不到传统 LEM 的 0.55 倍 [He et al., 2025]；OneRec-V2 通过 lazy decoder-only 架构将训练资源减少 90%，使模型从 0.5B 扩展到 8B 参数成为可能 [Zhou et al., 2025]。
推理延迟：自回归解码的序列化特性使单次推理延迟高于传统判别式模型。Lazy Decoding [Zhou et al., 2025] 可将计算量降低 94%，但对延迟敏感场景（如广告竞价 <10ms）仍需专项优化。量化参考：OneRec-V2 1B 模型在 L20 GPU 上推理延迟 36ms（p99），MFU 62% [Zhou et al., 2025]；MTGR 通过用户级压缩实现子线性推理，推理成本反而比 DLRM baseline 降低 12% [Han et al., 2025]；传统级联系统精排模型单次推理通常在 5-15ms 之间，但需对数百候选逐一打分。PLUM 的在线推理延迟未公开。
工程复杂度：端到端系统简化了多阶段流水线的维护（消除阶段间接口协调），但引入了语义 ID 版本管理、码本更新、前缀树维护等新的工程挑战。量化参考：OneRec-V1 的运营成本仅为传统流水线的 10.6% [Zhou et al., 2025]；PLUM SIDv2 的物品唯一性达 96.7%，幻觉率低于 5% [He et al., 2025]；MTGR 的流式训练框架经优化后相比原生 TorchRec 提升了 1.6-2.4 倍训练吞吐 [Han et al., 2025]。
效果提升幅度：从已有工业实践看，端到端生成式推荐在核心指标上的提升幅度为 0.5%-2%（App Stay Time、CTR 等），对于亿级用户平台意味着巨大的商业价值，但中小型平台需评估绝对收益是否覆盖迁移成本。量化参考：MTGR UV_CTCVR +1.02%、PV_CTR +1.90% [Han et al., 2025]；OneRec-V2 App Stay Time +0.467%/+0.741%（主站/极速版）、LT7 +0.069%/+0.034%、Like +3.924%/+5.393% [Zhou et al., 2025]；PLUM Panel CTR +0.76%/+4.96%（长视频/短视频）、Engaged Users +0.07%/+0.28% [He et al., 2025]；OxygenREC GMV 和订单量显著提升（具体数值未公开）[Hao et al., 2025]。
迁移灵活性：评估现有系统向生成式范式迁移的技术债务、团队技能缺口、以及回滚方案的可行性。量化参考：OneRec 已服务快手 25% 总流量（4 亿日活用户）[Zhou et al., 2025]；MTGR 覆盖 2.1 亿用户、430 万物品、237 亿次曝光 [Han et al., 2025]；PLUM 服务 YouTube 数十亿用户的长视频和短视频多个核心界面 [He et al., 2025]。需注意的风险信号：OneRec 全量实验中冷启动视频曝光下降 44.7%/36.7%、聚类密度上升 11.7%/7.9% [Zhou et al., 2025]。

上述五个维度的权重因公司规模而显著不同：大厂更关注效果提升的绝对收益和技术壁垒建设，中型公司更敏感于工程复杂度与人才成本，小型公司则以迁移灵活性和训练成本为首要约束。

5.5.2 分规模部署建议

大型平台（亿级用户 + 自有 GPU/TPU 集群）。 适合全量端到端生成式推荐路线。参考 OneRec [Zhou et al., 2025] 和 MTGR [Han et al., 2025] 的实践，以语义 ID + 自回归生成完全替代或深度增强级联架构。关键前提：具备千卡级训练集群、流式训练基础设施、以及专业的推荐系统与 NLP 交叉团队。预期 ROI 最高，但初期投入和技术风险也最大。

中型公司（千万级用户）。 适合混合增强路线：保留现有级联架构的排序和重排序模块，用生成式模型增强召回阶段（参考 PLUM [He et al., 2025] 的检索阶段语义 ID 方案），或引入近线生成通道作为独立信号源（参考 OxygenREC [Hao et al., 2025] 的快慢思考架构）。此路线可在不重构整体系统的前提下获得生成式推荐的部分收益。

小型公司（百万级以下用户）。 适合利用开源基座模型（如 OpenOneRec [Xue et al., 2026] 提供的 1.7B/8B 预训练模型）+ 轻量 fine-tuning 策略。通过在自有数据上微调开源模型的语义 ID 码本和生成头，以最小的训练成本获得生成式推荐能力。RecIF-Bench [Xue et al., 2026] 提供的标准化评估基准可帮助快速验证模型在目标场景上的效果。

5.5.3 渐进式迁移路径

对于正在运行传统级联架构的组织，建议采用以下四阶段渐进式迁移策略：

阶段 1：生成模型辅助召回。 在现有召回通道旁增加一条生成式召回通道（语义 ID + 自回归生成），与既有双塔召回并行运行，通过 A/B 测试验证增量价值。此阶段不改变下游排序逻辑，风险可控。
阶段 2：统一召回层。 当生成式召回通道稳定后，逐步替代传统召回通道，统一为生成式检索。同时开始训练端到端模型，但仅用于离线评估和 shadow serving。
阶段 3：召回-粗排合并。 利用端到端模型的统一打分能力，合并召回和粗排为单一生成阶段。精排模块保留作为安全网，处理业务约束和生态调控。
阶段 4：完全替代级联架构。 当端到端模型的质量和稳定性充分验证后，移除残余的精排和重排序模块，实现全链路生成式推荐。保留降级回退到级联系统的能力作为灾备方案。

每个阶段间应设置明确的指标门槛（核心业务指标不劣化 + 新增指标显著提升）和灰度比例（5% → 20% → 50% → 100%），确保迁移过程中的业务稳定性。

时间估计。 基于 OneRec（2023 年立项 → 2025 年全量部署）和 MTGR（2024 年启动 → 2025 年上线）的工业经验，各阶段的典型时间周期为：阶段 1 约 3-6 个月（模型开发+离线验证+小流量 AB）；阶段 2 约 6-12 个月（系统重构+稳定性打磨+全量切换）；阶段 3 约 6-12 个月（端到端训练+精排融合+效果追平）；阶段 4 约 3-6 个月（全链路验证+降级机制建设+全量上线）。整体从阶段 1 到阶段 4 的完整迁移周期约 2-3 年，与 OneRec 的实际时间线一致。中小型公司如果基于 OpenOneRec 等开源方案，阶段 1-2 的时间可缩短 30-50%。

5.5.4 总体拥有成本（TCO）对比分析

为帮助从业者做出更具操作性的部署决策，我们基于 5.4 节四大工业系统的公开数据，构建了生成式推荐 vs 传统级联架构在全生命周期成本上的结构化对比。需注意：以下数据提取自各系统公开论文中的定量报告，不同系统的统计口径和基线定义存在差异，跨系统的横向对比应审慎解读。

成本维度	传统级联架构	生成式推荐	数据来源与说明
训练成本（GPU-hours）	多模型独立训练，总量分散但累计可观；单模型 FLOPs 低（DLRM 0.86 GFLOPs/样本）	单模型训练成本高（MTGR 55.76 GFLOPs/样本，65x DLRM），但总训练成本可与 DLRM 持平；PLUM 900M MoE 总 FLOPs <0.55x LEM	MTGR [Han et al., 2025]；PLUM [He et al., 2025]
推理成本（QPS/GPU, p99 延迟）	精排单次 5-15ms，但需对数百候选逐一打分	OneRec-V2 1B 模型 p99 36ms（L20 GPU），MFU 62%；MTGR 推理成本反比 DLRM 降 12%（用户级压缩）	OneRec-V2 [Zhou et al., 2025]；MTGR [Han et al., 2025]
工程人力（模型数、特征工程、联调）	4-6 个独立模型（召回/粗排/精排/重排各 1+），大量跨阶段特征工程与接口联调	单一端到端模型，消除跨阶段接口；但引入语义 ID 版本管理、码本维护等新工程挑战	OneRec [Zhou et al., 2025]；Semantic IDs Handbook [Ju et al., 2025]
运维成本（监控、故障排查、回滚）	各阶段独立监控、独立回滚，故障隔离性好；但多模型联调的复杂度高	OneRec-V1 运维成本仅传统流水线的 10.6%；单模型降低了监控对象数量，但单点故障风险需灾备方案	OneRec [Zhou et al., 2025]
总体 ROI	成熟稳定，边际优化空间递减	短期迁移成本高（基础设施重构），中长期运维和效果收益显著；适合亿级平台追求突破性提升	综合 5.4 节四大系统

上述对比揭示了一个关键洞察：生成式推荐的 TCO 优势主要体现在运维阶段而非训练阶段。单模型替代流水线带来的运维成本大幅下降（OneRec-V1 降至 10.6%）是最具说服力的经济论据。但必须强调，这一优势的前提是系统已完成迁移并稳定运行——迁移过程本身的工程投入和风险不可忽视。对于中小型公司，建议以 PLUM 的”局部替代”策略（仅在检索阶段引入生成式方法）为起点，逐步积累经验后再评估全链路替代的 TCO 收益。

5.5.5 AB 测试方法论

生成式推荐的端到端架构对 AB 测试方法论提出了特殊挑战。传统级联系统可以对单个模块进行独立 AB 测试（如仅替换召回模型，保持精排不变），但端到端生成式模型无法按模块拆分——要么全量使用新模型，要么完全不用，这使得实验设计和效果归因都变得更加复杂。

渐进式灰度发布策略。 基于 OneRec 在快手的全量上线经验 [Zhou et al., 2025]，我们建议采用以下四阶段灰度策略：

1% 探索期（1-2 周）。 在小流量下验证系统稳定性和基本指标方向。重点观测：推理延迟 p99/p999、异常推荐率（生成幻觉 ID 的比例）、系统错误率。此阶段不做效果判断，仅确认”不崩溃”。
5% 验证期（2-4 周）。 积累足够样本量以检测核心指标的统计显著性。重点观测：CTR/CVR 的日均变化趋势、冷启动物品的曝光变化。OneRec 的经验教训显示，冷启动视频曝光在此阶段可能出现 -44.7% 的显著下降 [Zhou et al., 2025]，需提前设计干预策略（如混合冷启动探索策略）。
25% 放量期（2-4 周）。 验证效果在更大流量下的稳定性，观测用户群体间的异质性效应。重点观测：不同活跃度用户群的效果差异、内容生态多样性指标（聚类密度）、创作者曝光公平性。
100% 全量（持续监控）。 全量上线后持续监控长期指标。OneRec 的全量实验显示整体 App Stay Time +0.467%，但聚类密度上升 11.7% [Zhou et al., 2025]——这种”整体提升但多样性下降”的 trade-off 需要长期跟踪。

统计方法论考量。 上述渐进灰度策略的每个阶段都面临统计检验设计的挑战，需要关注以下三个核心问题。其一，sequential testing 替代固定样本检验：渐进灰度的本质是”边观测边决策”，建议采用 sequential testing 框架（如 always-valid p-values 或 group sequential design），在控制总体 I 类错误率的前提下支持数据驱动的阶段性放量决策，避免因重复检验导致的多重比较膨胀。其二，最小可检测效应（MDE）的设计：生成式推荐的效果提升通常在 0.5-2% 量级（参考 OneRec App Stay Time +0.467%、MTGR UV_CTCVR +1.02%），检测如此小幅提升需要足够的统计功效——以 CTR 为例，检测 0.5% 的相对提升（baseline CTR 5% → 5.025%）在 $\alpha=0.05$、power $\geq 0.8$ 下需要每组约 250 万用户，这对 1% 探索期的样本量形成直接约束，日活低于 5 亿的平台可能需要延长探索期或接受更大的 MDE 门槛。其三，用户间干扰（interference）与 SUTVA 违反：生成式推荐可能改变全局候选分布——当处理组用户大量消费由生成模型推荐的特定内容时，这些内容的热度信号会通过协同过滤传导影响对照组用户的推荐结果。端到端模型对物品曝光分布的改变尤其显著（OneRec 全量实验中冷启动视频曝光下降 44.7% 即为证据），这种跨组干扰可能导致 AB 测试低估或高估真实处理效应。缓解策略包括按地域或时段进行 cluster-randomized 实验设计，或使用 switchback 设计在时间维度交替切换处理与对照。

评估指标体系。 端到端生成式推荐的评估不应局限于短期点击指标，建议构建三层指标体系：

短期效果指标（实时-日级）： CTR、CVR、观看时长、互动率——衡量推荐的即时吸引力。
中期留存指标（周级-月级）： 次日/7 日/30 日留存率、人均使用时长趋势——衡量推荐对用户粘性的影响。OneRec-V2 报告的 LT7（7 日留存）+0.069% 是中期指标的典型参考。
长期生态健康度指标（月级-季度级）： 内容多样性（聚类密度、基尼系数）、创作者活跃度（新创作者留存率、长尾创作者曝光占比）、用户满意度调研（NPS）——衡量推荐系统对平台生态的长期影响。

这一三层指标体系的核心思想是：短期指标用于快速迭代，中期指标用于验证方向正确性，长期指标用于防止以牺牲生态健康换取短期增长的陷阱。指标体系与灰度阶段的对应关系：1% 探索期重点关注系统稳定性指标（延迟、错误率）而非效果指标；5% 验证期聚焦短期效果指标（CTR/CVR）的统计显著性检验；25% 放量期引入中期留存指标和生态多样性指标；100% 全量后启动长期生态健康度的持续监控。每个阶段的放量决策应以该阶段对应层次的指标作为 gate，而非仅依赖短期效果。

第 6 章跨领域技术借鉴

生成式推荐并非孤立发展，其核心方法论大量汲取自 NLP、计算机视觉、强化学习和 Agent 系统等邻近领域的技术进步。本章系统分析这些跨领域技术迁移的路径、已有尝试和未来潜力，揭示推动生成式推荐范式演进的底层技术动因。

6.1 NLP 生成技术的迁移

NLP 领域的序列生成技术是生成式推荐最直接的技术来源。从架构（Transformer）、训练范式（预训练-微调）到解码策略（beam search），推荐领域已大量借鉴 NLP 的成功经验。然而，NLP 领域仍有多项前沿技术尚未被推荐社区充分吸收。

6.1.1 Speculative Decoding：打破自回归推理瓶颈

技术描述。 Speculative decoding [Leviathan et al., 2023; Chen et al., 2023] 是 LLM 推理加速的核心技术之一。其基本思想是：使用一个轻量级的草稿模型（draft model）快速生成多个候选 token，然后由完整模型并行验证这些候选，接受正确的 token 并拒绝错误的。由于验证（并行前向传播）比逐步生成（序列前向传播）高效得多，speculative decoding 可以在不损失生成质量的前提下显著加速推理。

在推荐中的应用。 生成式推荐的自回归解码面临与 LLM 类似的延迟瓶颈（见 5.1 节），speculative decoding 的迁移是自然的选择。目前已有多项工作探索了这一方向：

AtSpeed [Lin et al., 2025] 识别了推荐场景中 speculative decoding 的独特挑战：推荐需要通过 beam search 生成 top-K 个不同的物品序列，而非单一序列，这使得验证条件更加严格。AtSpeed 提出了对齐目标（alignment objectives）和松弛采样验证策略（relaxed sampling verification），实现了最高 2.5 倍的加速。
LASER [Xi et al., 2025] 将推荐知识生成识别为基于检索的 speculative decoding 的理想场景，设计了定制检索池（Customized Retrieval Pool）和松弛验证机制，在公开数据集上实现了 3-5 倍加速，在线 A/B 测试中节省了约 67% 的计算资源。
NEZHA [Wang et al., 2025c] 在阿里巴巴淘宝广告系统中部署了自草稿（self-drafting）speculative decoding，将草稿头直接集成到主模型中，消除了独立草稿模型的需求，并引入基于哈希集合的无模型验证器来解决幻觉问题。该系统自 2025 年 10 月起在十亿级规模的广告推荐中投入生产。
PAD-Rec [Chen et al., 2026] 进一步增强了草稿模型的位置感知能力，引入物品位置嵌入和步骤位置嵌入，适配生成式推荐中”深度依赖的不确定性”特点，实现了最高 3.1 倍的加速。

方法对比。

方法	草稿模型设计	验证策略	加速比	部署规模	核心创新
AtSpeed [Lin et al., 2025]	独立轻量模型	松弛采样验证	最高 2.5x	学术验证	beam search 兼容的对齐目标
LASER [Xi et al., 2025]	定制检索池	松弛验证+检索匹配	3-5x	在线 AB（-67% 计算）	推荐知识作为检索式草稿
NEZHA [Wang et al., 2025c]	自草稿（集成草稿头）	哈希集合无模型验证	未公开	淘宝十亿级广告	消除独立草稿模型开销
PAD-Rec [Chen et al., 2026]	并行自草稿	基于树注意力的验证	最高 3.1x	学术验证	Jacobi 迭代式并行解码

技术洞察。 推荐场景中的 speculative decoding 与 NLP 场景存在关键差异：(1) 推荐需要 top-K 多样化输出而非单一最优序列，验证策略需要相应调整；(2) 语义 ID 的码本空间远小于自然语言词汇表，草稿模型的准确率更高，加速潜力也更大；(3) 推荐的 beam search 结构为草稿-验证提供了天然的并行化机会。

6.1.2 KV Cache 优化与长上下文建模

技术描述。 KV cache 是 Transformer 自回归推理中存储已计算的 key-value 对以避免重复计算的核心机制。NLP 领域已发展出多种 KV cache 优化技术：Multi-Query Attention (MQA)、Grouped Query Attention (GQA) [Ainslie et al., 2023]、PagedAttention [Kwon et al., 2023]、以及各种 cache 压缩和驱逐策略。

在推荐中的应用。 推荐场景对 KV cache 优化有独特需求：(1) 用户行为序列通常比 NLP 文本更长（数千到数万个行为 token），对 cache 内存的压力更大；(2) 同一用户的行为序列在短时间内多次被查询（用户刷新页面），存在 cache 复用的巨大机会。

OneRec-V2 的 lazy decoder-only 架构已经体现了 KV cache 优化的思想——通过多层共享 context KV 对（$L_{\text{kv}}$ 参数控制），将 KV cache 内存从 94M 降低到 7M。SOLARIS [Liu et al., 2026] 进一步提出了”推测性卸载”策略，将高成本的基础模型推理从延迟关键的服务路径中解耦，主动预计算用户-物品嵌入，在 Meta 广告系统中实现了 0.67% 的收入指标提升。

未来潜力。 NLP 领域的 Ring Attention、Flash Attention 3 等长上下文技术可以直接迁移至推荐场景，支撑更长的用户行为序列建模。Meta 的 Context Parallelism [Dong et al., 2025] 已将 HSTU 的支持序列长度扩展了 5.3 倍。

6.1.3 Constrained Decoding：约束生成保证推荐合法性

技术描述。 NLP 中的 constrained decoding 通过在解码过程中施加结构化约束（如语法约束、格式约束、事实约束），确保生成结果满足特定的形式化要求。代表性方法包括 constrained beam search、Neurologic Decoding [Lu et al., 2021] 和 grammar-guided generation。

在推荐中的应用。 推荐场景天然需要约束解码——生成的语义 ID 必须对应物品库中的有效物品（避免”幻觉 ID”），且推荐列表需要满足多样性、新颖度、业务规则（如不重复推荐已购买物品）等约束。TIGER 的前缀树约束 beam search 是最早的应用实例。PROMISE [Guo et al., 2026] 进一步引入过程奖励模型（Process Reward Model, PRM）对生成过程进行逐步验证，通过 PRM 引导的 beam search 修剪错误分支，有效缓解了语义 ID 生成中的”语义漂移”问题。

未来潜力。 NLP 领域的 grammar-guided generation（如 Outlines、SGLang 的 JSON 模式生成）可以迁移为推荐的”业务规则引导生成”——在解码过程中实时检查预算约束、频率控制、内容安全等业务规则，从”生成后过滤”转向”生成时约束”，减少无效候选的产生。

6.1.4 RLHF/DPO 对齐方法的推荐适配

技术描述。 RLHF（Reinforcement Learning from Human Feedback）[Ouyang et al., 2022] 和 DPO（Direct Preference Optimization）[Rafailov et al., 2023] 是 LLM 对齐的两种主流方法。RLHF 通过训练奖励模型和策略优化实现对齐，DPO 则直接从偏好数据学习策略，无需显式奖励模型。

在推荐中的应用与挑战。 4.5 节已讨论了 OneRec 的 RLHF 实践。然而，推荐场景中的对齐与 LLM 对齐存在根本性差异：(1) 推荐的”偏好”是隐式的（点击、观看时长）而非显式的（人工标注），负样本不可靠——用户未交互的物品不等于用户不喜欢的物品；(2) 推荐偏好是高度个性化的，不同用户对同一物品的偏好可能截然相反，无法像 LLM 对齐那样使用通用的人类偏好。

RoDPO [Huang et al., 2026] 正面回应了第一个挑战：用随机采样替代硬负样本，从动态 top-K 候选池中采样，减少因假负样本导致的错误抑制梯度，在 Amazon 数据集上实现了最高 5.25% 的 NDCG@5 提升。ReRe [Tan et al., 2025] 则系统性地调查了 RLVR（Reinforcement Learning with Verifiable Rewards）在推荐中的设计空间，引入了约束 beam search 和辅助排序奖励。

关键洞察。 从 NLP 到推荐的对齐方法迁移，核心挑战不在于算法本身（PPO/DPO 可以直接使用），而在于”偏好信号的构造”——如何从嘈杂的隐式反馈中构建可靠的偏好对，是决定对齐效果的关键因素。

6.1.5 Chain-of-Thought 推理增强推荐

技术描述。 Chain-of-Thought (CoT) prompting [Wei et al., 2022] 通过引导 LLM 生成中间推理步骤来提升复杂任务的准确率。o1 模型 [OpenAI, 2024] 进一步将 CoT 推理内化到模型训练中，实现了”推理时计算量扩展”（test-time compute scaling）。

在推荐中的应用。 4.3 节已介绍了 ReasoningRec、Think before Recommendation 等将推理引入推荐的工作。更前沿的进展是将 test-time compute scaling 的思想迁移到推荐中：

PROMISE [Guo et al., 2026] 首次在生成式推荐中建立了 test-time scaling law：通过过程奖励模型引导的 beam search 增加推理时计算量，较小的模型可以匹配甚至超越更大的模型的推荐质量。这一发现与 LLM 推理中”compute-optimal 推理”的趋势一致。
ManCAR [Yang et al., 2026] 将多步潜在推理（latent reasoning）锚定在协同流形（collaborative manifold）上，从全局交互图中构建局部意图先验，防止推理轨迹漂移。在 7 个基准上实现了最高 46.88% 的 NDCG@10 提升。
PLR [Tang et al., 2026] 发现现有的潜在推理方法在深度方向（更多推理步骤）上收益递减，创新性地提出”宽度方向扩展”——通过可学习的触发 token 同时探索多条推理轨迹，使用混合推理流聚合（mixture-of-reasoning-streams aggregation）合并结果。

关键洞察。 NLP 中的 CoT 推理在推荐中的迁移面临一个独特挑战：推荐的”推理”更多是隐式的偏好模式匹配，而非显式的逻辑推导。将推理过程从文本空间转移到潜在空间（如 ManCAR、PLR）可能是更适合推荐场景的技术路线。

6.2 计算机视觉 Tokenization 的启发

6.2.1 VQ-VAE/RQ-VAE 的跨领域迁移

技术背景。 向量量化（Vector Quantization）技术最早在计算机视觉领域取得突破性成功。VQ-VAE [van den Oord et al., 2017] 将连续图像表示离散化为码字序列，使得自回归模型可以用于图像生成。RQ-VAE [Lee et al., 2022] 通过残差量化进一步提升了重构质量和码本利用率。

向推荐的迁移。 TIGER [Rajput et al., 2023] 将 RQ-VAE 从图像 tokenization 直接迁移到物品 tokenization，用残差量化将物品内容嵌入离散化为语义 ID，这是生成式推荐领域最成功的跨领域技术迁移之一。这一迁移之所以成功，根本原因在于图像和物品共享相似的”层级语义结构”：图像可以从粗粒度（场景类别）到细粒度（纹理细节）逐层描述，物品同样可以从粗粒度（类目）到细粒度（具体属性）逐层编码。

6.2.2 视觉 Tokenizer 的设计原则

VQGAN 与对抗训练。 VQGAN [Esser et al., 2021] 在 VQ-VAE 的基础上引入了对抗训练（adversarial training）和感知损失（perceptual loss），显著提升了重构质量。其设计原则——用判别器监督码本的语义质量而非仅优化像素级重构——对推荐有直接启发：物品 tokenizer 的训练目标不应仅仅是嵌入的数值重构精度，更应关注量化后的语义 ID 是否保持了物品间的推荐相关性（协同信号）。LC-Rec 的多任务对齐微调正是这一思想的推荐领域实践。

FSQ（Finite Scalar Quantization）。 FSQ [Mentzer et al., 2023] 提出了一种更简洁的量化方案：直接将连续向量的每个维度映射到有限个离散值（如 ${-1, 0, 1}$），无需可学习的码本。FSQ 避免了传统 VQ-VAE 的码本坍缩（codebook collapse）问题，且训练更稳定。这一方法尚未被推荐领域广泛采用，但对于解决语义 ID 构建中的码本利用率不均问题具有潜在价值。

6.2.3 从视觉到推荐的 Tokenizer 设计启示

视觉 tokenizer 的发展为推荐物品 tokenizer 提供了三个关键设计原则：

多尺度表示。 视觉 tokenizer（如 DALL-E 的 dVAE、Parti 的 ViT-VQGAN）普遍采用多尺度码本设计，粗粒度码本编码全局结构、细粒度码本编码局部细节。PLUM 的多分辨率码本（第一层 2048、逐层减半）直接借鉴了这一思想。
码本正则化。 视觉领域已开发出多种防止码本坍缩的技术：EMA（Exponential Moving Average）更新、码本重置（codebook reset）、entropy regularization 等。这些技术同样适用于推荐场景中语义 ID 码本的训练稳定性保障。
Tokenizer 与生成模型的联合训练。 视觉领域的最新趋势是将 tokenizer 和生成模型端到端联合训练（如 MAGVIT-v2 [Yu et al., 2024]），而非分离训练。推荐领域当前普遍采用分离训练策略（先训练 RQ-VAE 构建语义 ID，再训练推荐模型），联合训练可能进一步提升语义 ID 的推荐相关性。

6.3 世界模型与模拟器

6.3.1 世界模型在 RL 中的成功

技术背景。 世界模型（World Model）是强化学习中的核心概念——一个能够预测环境状态转移和奖励的学习模型。代表性工作包括 Dreamer 系列 [Hafner et al., 2020, 2023]（在潜在空间中学习环境动力学）和 IRIS [Micheli et al., 2023]（基于 Transformer 的世界模型）。世界模型的核心价值在于：(1) 允许智能体在”想象”中进行策略探索，无需与真实环境交互；(2) 提供反事实推理能力——如果采取不同策略会发生什么。

向推荐的迁移动机。 推荐系统面临与 RL 相似的挑战：(1) 在线实验（A/B 测试）成本高昂——直接将新策略部署给真实用户可能损害用户体验和平台收入；(2) 离线评估与在线效果之间存在系统性偏差，传统离线指标（如 NDCG、Recall）与真实业务指标（用户留存、收入）的相关性不稳定。构建推荐领域的”世界模型”——能够模拟用户对推荐结果的行为响应——将极大地加速策略迭代和降低实验风险。

6.3.2 推荐中的用户行为模拟器

近年来，基于 LLM 的用户模拟已成为活跃的研究方向：

Agent4Rec [Zhang et al., 2024] 使用 LLM 赋能的生成式 Agent 模拟用户与推荐系统的交互，每个 Agent 配备用户画像、记忆和行为模块，可以模拟信息茧房效应等复杂用户行为。
ContextSim [Bougie et al., 2026] 构建了基于 LLM 的可信用户代理（user proxy），通过生活模拟模块（life simulation module）生成”用户何时、何地、为何与推荐交互”的场景上下文，在离线 A/B 测试相关性上达到了较高的可信度。
STEAM [Liao et al., 2026] 将用户偏好分解为原子记忆单元（atomic memory units），跨用户组织相似记忆形成社区，通过自适应演化机制模拟偏好变化，在推荐准确率、模拟保真度和多样性上均优于基线方法。
CreAgent [Ye et al., 2025] 独特地关注了内容创作者（而非消费者）的模拟——在信息不对称条件下用博弈论的信念机制和快慢思考框架模拟创作者行为，并通过 PPO 微调实现长期推荐生态评估。

6.3.3 离线评估与反事实推理

世界模型最有价值的应用之一是反事实评估（counterfactual evaluation）：如果推荐系统采取了不同的策略，用户会如何响应？这对于回答”新策略是否比旧策略好”这一核心问题至关重要。

OneRec-V2 的实践已展现了这一方向的雏形：当 OneRec 服务了足够大的流量份额后，它可以利用自身生成的推荐结果上的用户反馈进行自我迭代，本质上是在构建一个”局部世界模型”——模型预测自己的推荐策略会带来什么用户响应，然后用真实响应进行验证和优化。

技术挑战。 推荐世界模型面临两个核心挑战：(1) 用户行为的高度随机性和非平稳性——相同用户在不同时间、不同心理状态下对同一推荐的响应可能完全不同，这比物理世界的确定性动力学复杂得多；(2) 反事实推理需要对”未发生的事件”建模，而推荐日志中只记录了”已发生的事件”（已曝光物品的用户反馈），存在严重的选择偏差。

6.4 LLM Agent 与工具调用

6.4.1 Agent 架构的推荐迁移

技术背景。 LLM Agent 系统（如 ReAct [Yao et al., 2023]、Toolformer [Schick et al., 2023]、AutoGPT）通过赋予 LLM 使用外部工具（搜索引擎、API、数据库）和进行多步决策的能力，将 LLM 从被动的文本生成器转变为主动的任务执行者。Agent 的核心循环是：观察 → 推理 → 行动 → 观察新状态 → 继续推理。

推荐中的 Agent 应用。 Agent 架构在推荐系统中的应用已开始涌现：

检索增强推荐（RAG for Recommendation）。 ChatCRS [Li et al., 2024] 将对话式推荐分解为两个 Agent：知识检索 Agent 使用工具增强方法在外部知识库上进行推理，目标规划 Agent 预测对话目标。这种多 Agent 分解使推荐准确率提升了 10 倍，信息性和主动性分别提升了 17% 和 27%。
自适应推荐 Agent。 AdaptJobRec [Wang et al., 2025b] 构建了基于自主 Agent 的职业推荐系统，通过用户查询复杂度识别机制实现自适应延迟控制——简单查询直接调用推荐工具，复杂查询则经过记忆过滤和智能任务分解。在沃尔玛的职业推荐场景中实现了最高 53.3% 的延迟降低。

6.4.2 多 Agent 协作与多目标协同

技术描述。 多 Agent 系统（Multi-Agent System, MAS）中，多个专业化的 Agent 通过协作完成单个 Agent 难以胜任的复杂任务。在推荐系统中，这一架构可以自然映射为多目标协同——不同 Agent 负责优化不同目标（用户体验、内容多样性、商业收入、内容安全），通过协商机制达成多方利益的均衡。

推荐中的应用前景。 Agentic Feedback Loop [Cai et al., 2024] 提出了推荐 Agent 和用户 Agent 之间的协作交互模型：推荐 Agent 从用户反馈中精化理解，用户 Agent 从推荐中识别兴趣，双方迭代优化，相比单 Agent 方法平均提升了 11.52%。GGBond [Zhong et al., 2025] 则构建了具有五层认知架构的社会模拟平台，用”亲密度-好奇心-互惠-风险”动机引擎驱动 Agent 在推荐闭环中的决策。

多目标协同的 Agent 化设计。 传统推荐系统的多目标优化通常采用加权求和或帕累托优化，这些方法在目标数量增多时扩展性差且难以动态调整。Agent 化设计提供了一种更灵活的范式：每个目标由一个专业 Agent 负责，Agent 之间通过自然语言协商（而非数值优化）达成策略共识。例如，”用户体验 Agent”可以要求”商业 Agent”降低广告频率，”商业 Agent”则可以建议在用户参与度高的时段适当增加广告密度——这种语义级协商比向量空间中的梯度冲突更容易被工程师理解和调控。

6.4.3 工具调用赋能的推荐决策

技术前景。 将工具调用能力引入生成式推荐，可以使推荐模型在生成过程中动态调用外部服务——实时库存查询、价格比较、用户信用检查、内容安全审核等——实现真正的”端到端智能推荐”而非仅仅是”端到端物品生成”。这一方向将生成式推荐从”模型”推向”系统”，与现有的推荐微服务架构形成互补。

6.5 小结：跨领域迁移的核心模式

回顾上述四个方向的跨领域技术借鉴，可以识别出三个核心迁移模式：

架构迁移（NLP → 推荐）。 Transformer、decoder-only、MoE 等架构的直接复用，是最成功也最成熟的迁移模式。OneRec-V2、PLUM 等工业系统的架构设计与 GPT、Gemini 高度同构。
表示迁移（CV → 推荐）。 VQ-VAE/RQ-VAE 等离散化表示方法从图像到物品的迁移，解决了生成式推荐的核心问题——物品的可生成表示。这一迁移的成功依赖于图像和物品共享的层级语义结构。
范式迁移（RL/Agent → 推荐）。 世界模型、多 Agent 协作、工具调用等范式级迁移尚处于早期阶段，但具有最大的长期潜力——它们不仅改变推荐模型的能力边界，更可能重塑推荐系统的整体架构形态。

第 7 章开放问题与未来方向

生成式推荐在过去四年中取得了从概念验证到工业部署的巨大进展，但作为一个仍在快速演化的研究领域，仍然面临大量未解决的核心问题和亟待探索的技术方向。在展望未来方向之前，我们首先需要诚实地审视当前范式本身的内在局限——这些局限不仅定义了未来研究的优先级，也决定了生成式推荐能否真正取代传统架构成为新的工业标准。随后，本章提出九个具有顶级会议可发表水准的前沿研究方向，每个方向包含清晰的问题定义、具体的技术路线、可行性论证、预期贡献和挑战分析。

7.0 生成式推荐范式的内在局限

在追逐”统一生成”愿景的研究热潮中，社区对生成式推荐范式的批判性反思明显不足。本节从四个维度剖析当前范式的结构性局限，这些局限并非简单的工程障碍，而是根植于范式选择本身的内在张力。

自回归解码的延迟-质量权衡。 自回归生成的推理延迟与序列长度严格线性相关——生成一个 $L$ 层语义 ID 需要 $L$ 步串行解码，每步依赖前一步的输出。对于 OneRec-V2 的 lazy decoder-only 架构，虽然将用户侧编码的计算占比从 97.66% 压缩至更合理的水平，但目标侧的自回归生成延迟仍是不可消除的下界。Speculative decoding（AtSpeed [Lin et al., 2025]、LASER [Xi et al., 2025]）通过”先猜后验”的策略在不损失生成质量的前提下实现 2-5x 加速，但本质上只是缩小了常数因子而非改变计算复杂度的阶。更根本的问题在于：推荐场景对延迟的容忍度远低于文本生成——用户不会等待模型”逐 token 思考”推荐结果。Non-autoregressive（NAR）生成在机器翻译中已有成熟方案（如 CMLM [Ghazvininejad et al., 2019]），而在推荐领域也已出现重要突破：NAR4Rec [Ren et al., 2024] 在快手（3 亿+ DAU）的重排序阶段成功部署了非自回归生成式模型，NLGR [Wang et al., 2025d] 在美团外卖推荐中验证了基于采样的 NAR 生成方法的工业可行性（详见 4.7 节）。然而，当前 NAR 推荐方法主要聚焦于重排序阶段（在固定候选集上优化排列），在语义 ID 的端到端生成式检索中的应用仍然有限。NAR 在语义 ID 生成中面临的核心困难在于：语义 ID 各层之间存在强条件依赖（第一层决定粗类别，后续层逐步细化），并行生成如何建模这种层级依赖而不引入独立性假设导致的质量崩塌，是一个需要进一步研究的开放问题。

语义 ID 离散化的信息损失。 RQ-VAE 将连续的物品嵌入量化为离散码本索引，这一过程不可避免地引入信息损失。从信息论视角看，$L$ 层、每层码本大小 $K$ 的 RQ-VAE 最多只能编码 $K^L$ 个不同物品——当物品库规模 $N$ 接近 $K^L$ 时，码本利用率趋近 100%，但语义相近物品被迫映射到相同 ID 序列（哈希冲突），导致生成模型在解码时无法区分它们。PLUM [He et al., 2025] 报告了 96.7% 的唯一性，意味着仍有 3.3% 的物品存在冲突。更深层的问题在于：$K$ 和 $L$ 的 trade-off 缺乏信息论层面的定量分析。增大 $K$ 可以减少冲突但增加每步解码的搜索空间；增大 $L$ 可以提高分辨率但增加自回归步数（回到延迟问题）。率失真理论（rate-distortion theory）提供了分析这一权衡的自然框架——给定物品嵌入空间的分布特性，$K$ 和 $L$ 存在理论最优配置使得在固定码率下重构失真最小——但目前尚无工作从这一视角给出严格的理论指导。此外，量化过程对协同过滤信号的保留程度也不清晰：LC-Rec 的对齐微调试图弥补这一损失，但其效果高度依赖微调任务的设计，缺乏系统性的量化评估。

单模型替代流水线的运维风险。 端到端生成式推荐（如 OneRec）用单一自回归模型替代了传统的召回→粗排→精排→重排级联流水线。从模型简洁性和端到端优化的角度，这是一个优雅的范式跃迁。但从系统可靠性的角度，这构成了经典的单点故障风险。在传统级联架构中，即使精排模型出现异常，召回和粗排仍可提供有意义的降级服务；单阶段模型的故障则意味着整条推荐链路的崩溃。OneRec 在快手的部署经验已经暴露了这一风险的具体表现：冷启动视频曝光下降 44.7%（5.4.3 节），而在级联架构中，冷启动通常只影响精排阶段，召回阶段的多路策略（如热度召回、内容召回）可以兜底。更广泛地说，级联架构的每个模块可以独立更新、独立回滚、独立监控——这种”微服务化”的运维灵活性是工业系统经过多年实践打磨的宝贵资产。端到端模型如何在保持架构统一性的同时实现等效的故障隔离和独立降级能力，是一个被学术研究忽视但对工业采纳至关重要的系统工程问题。

与竞争范式的对比缺失。 本综述——以及生成式推荐社区整体——存在一个显著的视野盲区：几乎没有与同时期其他新兴推荐范式的系统性对比。GNN-based 图推荐（如 LightGCN [He et al., 2020]、PinSage [Ying et al., 2018] 及其后续工作）通过显式建模用户-物品交互图的拓扑结构来捕获高阶协同信号，在冷启动和社交推荐场景中具有独特优势。Causal-based 因果推荐（如 CauseRec [Zhang et al., 2021]、因果去偏框架）通过因果推断消除混杂因素和位置偏差，追求推荐的因果公平性和鲁棒性。这两个方向也在各自追求”统一建模”——图推荐通过异构图统一多种交互类型，因果推荐通过结构因果模型统一去偏和推荐。生成式推荐在哪些维度上相对这些范式具有不可替代的优势（例如：跨物品泛化、多任务统一、与 LLM 的天然对齐），在哪些维度上存在结构性劣势（例如：拓扑信号建模、因果公平性），需要严谨的对比分析而非简单的范式隔离。承认这一盲区不仅是学术诚实的要求，也是指导未来融合性研究（如将图结构先验注入语义 ID 设计、将因果推断引入生成式推荐的训练目标）的必要前提。

为填补上述对比缺失，下表从六个核心维度对生成式推荐与两大竞争范式进行结构化对比：

维度	生成式推荐	GNN-based 图推荐	Causal-based 因果推荐
统一建模能力	强：单一自回归模型统一召回、排序、解释等多任务 [Zhou et al., 2025]	中：异构图可统一多种交互类型，但各任务仍需独立解码头	弱：结构因果模型侧重去偏，任务统一性有限
端到端优化	强：梯度贯穿全过程，支持序列级奖励优化	中：GNN 编码可微，但下游排序常需独立模块	中：因果效应估计可嵌入训练目标，但需额外的因果图假设
冷启动能力	强：语义 ID 基于内容嵌入，新物品天然可表示 [Rajput et al., 2023]	中：图结构依赖交互边，新节点缺乏连接；归纳式 GNN 可部分缓解	弱：因果模型依赖历史干预数据，冷启动场景数据不足
可解释性	中：推理链可提供语义解释 [Tang et al., 2025a]，但端到端生成过程本身不透明	中：注意力权重和图路径提供结构解释，但因果有效性存疑	强：因果图天然提供因果路径解释，反事实推理支持”为什么不”解释
工业部署成熟度	中→高：2025 年起多家头部公司部署（OneRec、MTGR、PLUM），但生态仍在建设中	高：PinSage [Ying et al., 2018] 等已在 Pinterest、阿里等大规模部署多年	低：主要停留在学术验证和离线去偏，大规模在线部署案例稀少
计算开销	高：自回归解码的序列化特性导致推理延迟线性增长；大模型训练成本高	中：图卷积计算量与边数线性相关；大规模图的邻居采样是主要瓶颈	低→中：因果效应估计的计算量取决于方法（倾向得分匹配较轻，反事实推理较重）

上述对比揭示了三个关键洞察：(1) 生成式推荐在统一建模和冷启动方面具有结构性优势，这些优势根植于语义 ID 的表示空间重构和自回归生成的灵活性；(2) 图推荐在拓扑信号建模和工业成熟度上仍领先，尤其在社交推荐和知识图谱推荐等图结构天然丰富的场景中；(3) 因果推荐在可解释性和公平性上具有理论优势，但工业落地差距最大。三个范式并非零和竞争关系——将图结构先验注入语义 ID 设计（如用用户-物品交互图的社区结构指导码本聚类）、将因果推断引入生成式推荐的奖励建模（如用因果效应而非相关性作为 RL 奖励信号），是值得探索的融合方向。

7.1 推荐的世界模型：从离线评估到反事实策略优化

问题定义

推荐系统的核心瓶颈之一是策略评估的低效性。当前，评估一个新推荐策略是否优于旧策略，唯一可靠的方法是在线 A/B 测试——将真实用户流量分配到新策略上并观察业务指标变化。然而，A/B 测试成本高昂（需要数天到数周的流量、存在用户体验风险）、吞吐量有限（同时能运行的实验数量受限于流量规模）、且无法回答反事实问题（”如果三个月前采用了不同策略，用户留存会怎样”）。

研究问题： 能否构建一个推荐领域的”世界模型”——一个能够准确预测用户对任意推荐策略的行为响应的生成模型，使得策略评估和优化可以在”想象空间”中高效完成？

技术路线

设计一个两阶段的推荐世界模型框架：

阶段一：用户行为动力学建模。 训练一个条件生成模型 $P_\phi(s_{t+1}, r_t

s_t, a_t)$，其中 $s_t$ 为时刻 $t$ 的用户状态（包含历史行为、当前上下文），$a_t$ 为推荐系统的动作（推荐列表），$s_{t+1}$ 为下一时刻的用户状态，$r_t$ 为即时奖励（点击、观看时长等）。该模型基于 Transformer 架构，以用户行为 token 序列为输入，自回归预测用户在给定推荐下的下一步行为。

关键创新在于”状态表示的设计”：借鉴 Dreamer 系列在潜在空间中学习动力学的思想，将用户状态编码为潜在向量而非原始行为序列，降低建模复杂度。同时引入”心理状态”隐变量（如浏览意图、满意度水平），使模型能够捕捉用户行为的非平稳性。

阶段二：基于世界模型的策略优化。 在学得的世界模型中进行”想象式”（imagination-based）策略优化。推荐策略（生成式推荐模型）在世界模型中模拟用户交互轨迹，通过策略梯度方法优化长期奖励（如多会话留存率、LTV）。世界模型作为环境模拟器，为策略提供无需真实用户交互的训练信号。

反事实评估模块。 基于因果推断框架（如结构因果模型, SCM），在世界模型中进行反事实推理：”如果在时刻 $t$ 推荐了物品 B 而非物品 A，用户后续行为序列会如何变化？”这需要世界模型具备对干预（intervention）的响应能力，而非仅仅是观察数据的拟合。

可行性论证

ContextSim [Bougie et al., 2026] 和 Agent4Rec [Zhang et al., 2024] 已证明 LLM 可以在一定程度上模拟用户行为，但目前的模拟保真度仍有较大提升空间。
OneRec-V2 的实践表明，当生成式推荐系统服务足够大的流量时，可以利用自身数据进行自我迭代——这本质上是一个”部分世界模型”。
Dreamer-v3 在 Atari 等复杂环境中已证明世界模型可以支撑高质量的策略学习。
Meta 的 Foundation-Expert Paradigm [Li et al., 2025] 已建立了跨场景知识迁移的基础设施，可以为世界模型提供多样化的训练数据。

预期贡献

学术价值： 首次在推荐领域建立形式化的世界模型框架，连接推荐系统与 model-based RL 的理论体系。
工业价值： 将 A/B 测试的策略评估周期从”天级”压缩到”小时级”，大幅加速推荐策略的迭代效率。反事实评估能力可以用于事故分析（”上周的策略变更为什么导致了留存下降”）。量化估计：以 OneRec-V2 的 1B 参数模型为基础构建世界模型，模拟单个用户 1000 步 imagination rollout（每步生成 3 token 语义 ID + 用户状态转移），估计计算成本约为 $6 \times 10^{10}$ FLOPs（约 60 GFLOPs，参考 OneRec-V2 单次推理约 $6 \times 10^7$ FLOPs $\times$ 1000 步），在 L20 GPU 上约需 36 秒——对于离线策略评估而言完全可行，但对实时策略优化仍需加速。

挑战与风险

用户行为的高度随机性和非平稳性使世界模型的预测误差可能在长时间跨度上累积（compounding error），导致策略优化偏离真实最优。
反事实推理需要满足”可忽略性假设”（ignorability assumption），即推荐决策之外没有未观察到的混杂因素影响用户行为——这在实际中很难严格满足。
世界模型的训练需要海量的用户交互数据，且数据分布需要覆盖足够多样的推荐策略，否则模型在未见过的策略下的预测不可靠。

最可能失败的原因

Compounding error 导致长程 rollout 不可信。 世界模型在每步预测中引入的微小误差会在多步 imagination rollout 中指数级累积。Dreamer-v3 在 Atari 中成功是因为游戏环境的状态转移是确定性的且动作空间有限；而推荐场景中用户行为的随机性远高于游戏环境（同一用户在相同推荐下的行为也可能完全不同），且状态空间（用户兴趣的连续演化）远大于游戏状态。估计值：当 rollout 步数超过 50 步（约 2-3 天的用户会话）时，预测误差可能使策略评估结果与真实 A/B 测试的相关性降至 $r < 0.5$，导致世界模型优化出的策略在真实环境中表现不佳。Rescue path： 若长程 rollout 不可信，可退回 shorter rollout（$\leq 10$ 步）+ model-based filtering 的保守策略——世界模型仅用于短期预测（单会话内），对策略候选进行快速预筛选（淘汰明显不合理的策略变更），最终决策仍交由小流量 A/B 测试验证。这一降级方案虽然放弃了”完全替代 A/B 测试”的远景目标，但仍可将策略评估周期从”天级”压缩到”小时级”（短程 rollout 筛选 + 缩小流量 A/B 验证），在 compounding error 问题被根本解决之前提供实际价值。

7.2 推荐 Foundation Model 的 Scaling Law：寻找 Compute-Optimal 配置

问题定义

HSTU [Zhai et al., 2024] 首次在推荐领域验证了 compute scaling law 的存在，PLUM [He et al., 2025] 进一步在 MoE 架构上验证了这一规律。然而，推荐领域的 scaling law 研究仍处于极早期阶段，与 NLP 领域已积累的丰富知识（Kaplan et al., 2020; Hoffmann et al., 2022 的 Chinchilla 规律）形成鲜明对比。

研究问题： 推荐系统的 compute-optimal 配置是什么？给定固定的计算预算 $C$，如何在模型参数量 $N$、训练数据量 $D$、序列长度 $L$、码本大小 $K$ 等维度之间做最优分配？推荐的 scaling law 与 NLP 的 scaling law 有何本质差异？

技术路线

第一阶段：多维度 Scaling 实验。 在统一的实验框架下，系统性地变化以下维度并测量推荐质量（如 Recall@K、NDCG、在线 CTR proxy）：

模型参数量 $N$：从 10M 到 10B，覆盖四个数量级
训练数据量 $D$：从 1M 到 100B 交互记录
序列长度 $L$：从 50 到 10000 行为 token
码本配置 $(K, L_{\text{sid}})$：码本大小 $K$ 从 64 到 4096，层级数 $L_{\text{sid}}$ 从 2 到 8

第二阶段：Chinchilla 规律的推荐对应。 NLP 中 Chinchilla 规律表明，给定计算预算 $C$，最优的模型大小 $N^$ 和数据量 $D^$ 满足 $N^* \propto C^a$ 和 $D^* \propto C^b$，其中 $a + b = 1$。研究推荐领域是否存在类似的规律，以及 $a, b$ 的值是否因推荐场景（短视频 vs 电商 vs 广告）而异。

第三阶段：推荐特有的 Scaling 维度分析。 NLP 中不存在但推荐中关键的维度包括：

码本配置的 Scaling。 码本大小 $K$ 和层级数 $L_{\text{sid}}$ 是否也存在幂律关系？增大码本是否与增大模型具有可替代性？
用户多样性的 Scaling。 训练数据中用户的多样性（而非仅仅是交互数量）是否是独立的 scaling 维度？
多模态信息的 Scaling。 在固定计算预算下，投入更多计算到多模态编码器（图像、视频理解）vs 推荐主模型，哪个收益更高？

可行性论证

HSTU [Zhai et al., 2024] 已在 Meta 内部验证了三个数量级的 scaling law。PLUM [He et al., 2025] 在 YouTube 验证了 MoE 的 scaling。SessionRec [Huang et al., 2025] 在美团验证了 session 级推荐的 scaling law。这些工业实践提供了充分的先验证据。
Understanding Generative Recommendation with Semantic IDs [Liu et al., 2025] 发现语义 ID 方法在 scaling up 时存在显著瓶颈（从 44M 到 14B 参数），而 LLM-as-RS 具有更优的 scaling 特性——这表明 scaling law 可能高度依赖于物品表示方式，需要系统性研究。
Principled Synthetic Data [Zhang et al., 2026] 证明了高质量合成数据可以为推荐 LLM 建立稳健的幂律 scaling，Recall@100 提升了 130%——这为解决推荐数据的噪声和偏差问题提供了新路径。
OpenOneRec [Zhou et al., 2026] 提供了 1.7B 和 8B 的开放模型权重和大规模数据集，使学术研究者可以在可控的实验环境中验证 scaling 规律。

预期贡献

学术价值： 建立推荐领域首个系统性的 Scaling Law 理论框架，为推荐 Foundation Model 的资源分配提供理论指导。
工业价值： 使公司在投入计算资源训练推荐模型时，能够事先预测模型质量，避免盲目的 scaling。量化估计：根据 HSTU [Zhai et al., 2024] 报告的 compute scaling law（engagement 指标随 compute 呈幂律增长），以及 OneRec-V2 从 0.5B 到 8B 参数的 loss 持续下降（3.33→3.19），外推估计将模型从 1B 扩展到 10B 参数（约 10x compute 增加），预期核心 engagement 指标（如 App Stay Time）可提升 2-5%（估计值，基于幂律指数约 0.05-0.1 的数量级），但需约 10x 的训练资源投入。Chinchilla 规律在推荐领域的对应关系将决定这一投入是否 compute-optimal——如果推荐数据的 scaling 指数 $b$ 显著大于 NLP 的 $b \approx 0.5$，则应优先投资数据质量而非模型规模。
跨领域价值： 推荐的 scaling law 与 NLP scaling law 的对比分析，可以深化对 scaling 现象本身的理解——是否所有序列建模任务都遵循类似的 scaling 规律？

挑战与风险

Scaling 实验需要巨大的计算资源。一个完整的多维度 scaling 实验可能需要数千 GPU 小时，对学术研究者构成壁垒。
推荐数据的质量和分布可能对 scaling law 的形状产生显著影响（Understanding Generative Recommendation [Liu et al., 2025] 已发现 scaling 瓶颈依赖于方法选择），需要控制实验中的混杂因素。
工业数据的保密性限制了跨公司的 scaling law 对比，可能导致结论的泛化性不足。

最可能失败的原因

推荐数据的噪声和偏差使 scaling law 的拟合不稳定。 NLP 的 scaling law 建立在相对干净、标注一致的文本语料上，而推荐数据天然充满噪声——用户的隐式反馈（点击、停留时长）是高噪声的偏好代理，且受到展示偏差（position bias）、流行度偏差（popularity bias）的系统性污染。Understanding Generative Recommendation [Liu et al., 2025] 已发现语义 ID 方法在从 44M 扩展到 14B 参数时出现 scaling 瓶颈，这暗示推荐领域的 scaling 可能不是简单的幂律关系，而是存在方法依赖的 “断点”——在某个临界规模之上，数据噪声开始主导模型容量的增加，使得继续 scaling 的边际收益急剧递减。如果 scaling law 的形状高度依赖于数据清洗策略和物品表示方式，则通用的 compute-optimal 配置可能不存在。Rescue path： 若单一方法的 scaling law 拟合因数据噪声而不稳定，可采用 ensemble scaling prediction 策略——同时在多种物品表示方式（语义 ID、原子 ID、混合表示）和多种数据清洗策略下独立拟合 scaling law，取多条 scaling curve 的保守包络线（lower envelope）作为资源规划的依据。这种方法不追求精确的单一幂律关系，而是给出”在最坏情况下仍能获得的最小收益”，为工业界的计算资源分配提供鲁棒的决策边界。

7.3 生成式推荐的 Test-Time Compute：推荐决策中的”思考时间”

问题定义

LLM 领域最重要的近期发现之一是 test-time compute scaling——通过在推理阶段投入更多计算（如更长的推理链、更多的采样轮次、更大的 beam width），可以系统性地提升输出质量。o1 模型 [OpenAI, 2024] 证明了较小的模型通过增加推理计算可以匹配甚至超越更大模型的性能。

研究问题： 推荐系统是否也存在 test-time compute scaling law？能否通过在推荐决策中增加”思考时间”——更多的推理步骤、更大的搜索空间、更精细的验证——来系统性地提升推荐质量？这是否意味着推荐系统可以根据请求的价值动态分配推理计算，实现”价值感知的计算弹性”？

技术路线

设计一个三层的推荐 test-time compute 框架：

第一层：过程奖励引导的 Beam Search 扩展。 基于 PROMISE [Guo et al., 2026] 的思路，训练过程奖励模型（PRM）对语义 ID 生成的每一步进行质量评估，在 beam search 中优先扩展 PRM 评分高的分支。通过增大 beam width（推理时计算量的直接代理），系统性地提升推荐准确率。关键创新在于 PRM 的训练——使用蒙特卡洛树搜索（MCTS）生成步级标注，而非依赖人工标注。

第二层：多轨迹并行推理。 借鉴 PLR [Tang et al., 2026] 的思想，在推理时同时探索多条推荐推理轨迹（reasoning trajectories），每条轨迹从不同的”推理视角”出发（如短期偏好视角、长期兴趣视角、探索视角），最终通过混合聚合（mixture aggregation）合并多条轨迹的结果。这实现了推理的”宽度扩展”而非仅仅是”深度扩展”。

第三层：价值感知的计算分配。 不同的推荐请求具有不同的”价值”：新用户的首次推荐、高价值商品的推荐、用户明确表达不满后的推荐——这些高价值请求值得投入更多推理计算。设计一个轻量级的路由器（参考 OxygenREC 的快慢思考设计），根据请求的预估价值动态决定推理计算预算（beam width、推理步数、采样次数）。

可行性论证

PROMISE [Guo et al., 2026] 已在生成式推荐中建立了 test-time scaling law 的初步证据：通过 PRM 引导的 beam search 增加推理计算，较小模型可以匹配或超越较大模型。
ManCAR [Yang et al., 2026] 在 7 个基准上通过自适应推理步数实现了最高 46.88% 的 NDCG@10 提升，证明了推理时计算量与推荐质量之间的正相关关系。
OxygenREC 的快慢思考架构已在工业系统中验证了动态计算分配的可行性。
推荐场景的特殊优势是：推荐的”正确答案”可以通过用户后续行为自动获取，无需人工标注，这使得 PRM 的训练成本远低于 LLM 推理任务。

预期贡献

学术价值： 建立推荐领域 test-time compute scaling 的理论框架和实证证据，为”推荐推理”开辟新的研究方向。
工业价值： 实现推荐系统的”计算弹性”——高峰时段使用快速推理、低谷时段使用深度推理，在不增加平均计算成本的前提下提升整体推荐质量。高价值请求获得更好的推荐体验，提升用户满意度和平台收入。量化估计：以 PROMISE [Guo et al., 2026] 的数据为参考，PRM 引导的 beam search 将 beam width 从标准的 $B=20$ 扩展到 $B=100$（约 5x test-time compute），预期 NDCG@10 提升 3-8%（估计值，基于 PROMISE 报告的 test-time scaling 趋势）；进一步扩展到 $B=500$（约 25x compute），预期额外提升趋于饱和（约 1-2% 增量）。以 ManCAR [Yang et al., 2026] 报告的最高 46.88% NDCG@10 提升（通过自适应推理步数）为上界参考，实际工业场景中 4x test-time compute 的合理预期为 NDCG@10 提升 5-15%，但延迟将从约 36ms 增加到约 100-150ms，需通过价值感知路由将高计算预算限定于高价值请求（估计占总请求的 10-20%）。

挑战与风险

推理时计算量增加直接导致延迟增加。在实时推荐场景（数十毫秒延迟要求）中，如何在”更多思考”与”更快响应”之间取得平衡是核心工程挑战。
PRM 的训练质量直接决定 test-time scaling 的效果——如果 PRM 无法准确区分好的中间步骤和差的中间步骤，增加 beam width 不仅不能提升质量，反而可能引入更多噪声。
不同推荐场景对 test-time compute 的受益程度可能差异很大——探索性推荐可能大幅受益，而热门物品推荐可能收益有限。

最可能失败的原因

PRM 训练信号的稀疏性导致 test-time scaling 提前饱和。 LLM 领域的 test-time scaling 成功依赖于高质量的过程奖励信号——数学推理中每步可以精确判断对错。但推荐场景中，语义 ID 的中间 token（如第 1 层粗类别码字）的”正确性”是模糊的——用户可能同时对多个粗类别感兴趣，不存在唯一正确的中间步骤。这使得 PRM 的训练信号远比数学推理稀疏和噪声化，导致 PRM 引导的 beam search 在 beam width 超过某个阈值后（估计值：$B > 50$-$100$）快速饱和，无法像 LLM 推理那样持续受益于更大的搜索空间。此外，推荐场景中”正确答案”不唯一（多个物品都可能让用户满意），PRM 需要区分的是”好坏程度”而非”对错”，这本质上更难学习。Rescue path： 当单一 PRM 饱和后，可切换到 ensemble-based scoring——训练多个异构奖励模型（如基于不同用户行为信号的 PRM：点击预测、观看时长预测、互动预测），在 beam search 中使用多模型投票或加权评分替代单一 PRM 引导。Ensemble 方法的优势在于各模型的偏差方向不同，组合后可有效降低单一 PRM 的评分噪声，从而将饱和阈值从 $B \approx 50$-$100$ 推高到 $B \approx 200$-$500$。代价是推理计算量线性增加（$M$ 个模型需 $M$ 倍评分开销），但可通过模型蒸馏（将 ensemble 知识压缩到单一轻量模型）在部署时控制成本。

7.4 多模态生成式推荐：统一文本/图像/视频的物品 Tokenization

问题定义

当前的生成式推荐大多基于文本模态构建语义 ID（使用文本嵌入作为 RQ-VAE 的输入）。然而，在电商（商品图片）、短视频（视频内容）、音乐（音频特征）等场景中，非文本模态携带了大量对推荐至关重要的信息——一件衣服的视觉风格、一个短视频的视听节奏、一首歌曲的旋律特征——这些信息在文本描述中往往丢失或不充分。

研究问题： 如何设计统一的多模态物品 tokenization 方案，将物品的文本、图像、视频、音频等多模态信息融合编码为统一的语义 ID，使生成式推荐模型能够”看到”和”听到”物品的全貌？

技术路线

方案一：多模态融合 tokenization。 将物品的多模态嵌入——文本嵌入（来自 text encoder）、视觉嵌入（来自 CLIP/ViT）、音频嵌入（来自 audio encoder）——通过跨模态注意力融合为统一嵌入，再对融合嵌入执行 RQ-VAE 量化。PLUM [He et al., 2025] 的 SIDv2 已采用文本+视觉嵌入融合作为 RQ-VAE 输入，这一方案可以扩展到更多模态。

方案二：模态级联 tokenization。 为每个模态独立生成模态特定的 token 序列（如文本 token + 视觉 token + 音频 token），然后将多个模态的 token 序列拼接为物品的完整 semantic ID。生成模型在解码时先确定粗粒度的跨模态类别（如”视觉风格偏好”），再在对应模态的 token 空间中细化。这一方案的优势是各模态 tokenizer 可以独立训练和更新。

方案三：通用多模态 tokenizer。 借鉴视觉-语言模型（如 Gemini、GPT-4V）中的多模态 tokenization 思路，训练一个统一的多模态 tokenizer，将图像、文本、视频等不同模态的信息映射到共享的离散 token 空间。TencentGR [Pan et al., 2026] 已发布了包含协同标识符和多模态内容 token 的大规模广告数据集（TencentGR-1M/10M），为多模态生成式推荐的研究提供了数据基础。

可行性论证

PLUM [He et al., 2025] 的 SIDv2 已验证了文本+视觉双模态融合 tokenization 的有效性，多模态 SID 相比纯文本 SID 在 Recall@10 上有显著提升。
TencentGR [Pan et al., 2026] 发布了工业级多模态广告推荐数据集，包含物品的协同标识符和多模态内容 token。
计算机视觉领域的多模态 tokenizer（如 Chameleon、Unified-IO 2）已证明不同模态可以共享统一的 token 空间，且自回归生成框架可以处理混合模态的 token 序列。
短视频推荐（快手、TikTok）和电商推荐（淘宝）等场景对多模态理解有强烈的业务需求。

预期贡献

学术价值： 建立多模态生成式推荐的 tokenization 方法论，为跨模态推荐提供统一的表示框架。
工业价值： 多模态 tokenization 可以显著提升视觉/听觉敏感型推荐场景的效果——时装推荐可以理解视觉风格、音乐推荐可以理解旋律特征、短视频推荐可以同时利用视觉和听觉信号。
冷启动缓解： 新物品可以通过其多模态内容获得高质量的语义 ID，无需依赖交互数据，进一步缓解冷启动问题。

挑战与风险

不同模态的信息密度差异巨大（一张图片 vs 一个标题），如何在统一 token 空间中平衡各模态的贡献权重是核心设计问题。
多模态 tokenizer 的训练需要对齐的多模态数据（同一物品的文本、图像、视频），数据收集和清洗的成本较高。
多模态 token 序列更长，进一步加剧了自回归解码的延迟问题。

量化预期效果

以 PLUM [He et al., 2025] 的 SIDv2（文本+视觉双模态）为基线，估计统一三模态（文本+视觉+音频）tokenization 的增量收益。SIDv2 相比纯文本 SID 在 Recall@10 上提升约 5-10%（估计值，基于 PLUM 报告的多模态 SID 优势）。进一步加入音频模态后，预期在音乐和短视频场景下额外提升 3-8% Recall@10（估计值），但在纯文本商品（图书、软件）场景下提升有限（$<1\%$）。统一三模态 tokenizer 的覆盖率（物品通过语义 ID 可被唯一标识的比例）预期从纯文本的 90-93%（参考 SIDv2 的 96.7% 双模态唯一性）提升至 97-99%，因为多模态信息提供了更丰富的区分维度。

最可能失败的原因

模态间的语义对齐质量不足导致融合嵌入质量反而下降。 统一多模态 tokenizer 的核心假设是不同模态的信息可以在共享嵌入空间中有意义地融合。但在推荐场景中，模态间的语义关联可能远弱于视觉-语言预训练（CLIP）中的场景——一件衣服的文字描述（”棉质休闲T恤”）和其图片的视觉特征（颜色、纹理、版型）之间的语义对应关系是松散的，强行融合可能引入噪声而非信息。特别是当某些物品的某些模态缺失时（如新上架商品没有用户生成视频），融合嵌入的质量会因缺失模态的”零填充”而系统性退化，反而不如分模态方案的鲁棒性。Rescue path： 若跨模态对齐质量不足导致融合嵌入退化，可退回方案二的分模态独立 tokenizer + 后融合策略——为每种模态独立训练专用 tokenizer（文本用 text RQ-VAE、视觉用 visual RQ-VAE），各模态独立生成模态特定的语义 ID 子序列，在推荐模型的解码器中通过跨模态注意力进行后期融合。这一策略牺牲了统一 token 空间的优雅性，但避免了模态对齐不足时的质量崩塌，且各模态 tokenizer 可独立迭代更新，工程灵活性更高。

7.5 个性化 Token Vocabulary：用户感知的动态语义 ID

问题定义

当前所有语义 ID 方案（TIGER、LC-Rec、PLUM 等）都使用全局共享的码本——所有用户看到的是同一套语义 ID 空间。然而，不同用户对物品空间的”分辨率需求”差异巨大：一个重度科幻迷需要对科幻电影进行极细粒度的区分（硬科幻 vs 软科幻 vs 太空歌剧 vs 赛博朋克），而对其不感兴趣的类目则只需粗粒度区分；反之亦然。全局码本在所有类目上均匀分配分辨率，对于每个具体用户都是次优的。

研究问题： 能否设计”个性化 token vocabulary”——根据用户的兴趣分布动态调整语义 ID 码本，在用户感兴趣的类目上分配更高分辨率（更多码字），在不感兴趣的类目上降低分辨率？这本质上是一个”个性化信息编码”问题。

技术路线

核心方案：层级自适应码本。 设计一个两层码本系统：

全局基础码本（Global Base Codebook）。 包含 $K_{\text{base}}$ 个码字，覆盖所有物品的基础语义区分。所有用户共享。
个性化精化码本（Personalized Refinement Codebook）。 对于每个用户（或用户群组），根据其兴趣分布动态分配精化码字。用户兴趣集中的类目获得更多精化码字（更高分辨率），兴趣分散或无兴趣的类目共享较少的精化码字（更低分辨率）。

技术实现： (1) 用户兴趣分布估计：基于用户历史行为，使用注意力池化（attention pooling）计算用户在不同类目/风格上的兴趣强度分布 $P_u(\text{category})$；(2) 码字分配：按照兴趣强度比例将精化码本的容量分配到不同类目——兴趣强度越高的类目获得越多的精化码字；(3) 个性化解码：在推理时，生成模型先生成全局基础码字（确定粗粒度类目），再在该用户的个性化精化码本中生成精化码字（确定具体物品）。

训练策略。 全局基础码本在全量数据上训练（与标准 RQ-VAE 一致）。个性化精化码本的训练可以采用元学习（meta-learning）框架：将每个用户视为一个任务，学习一个码本生成器 $f_\psi$，输入用户兴趣分布，输出该用户的精化码本配置。

可行性论证

NLP 领域的自适应词汇表（如 BPE 的域自适应变体）和自适应计算（如 early exit、Mixture of Depths）为个性化码本设计提供了方法论参考。
推荐场景中用户兴趣的幂律分布特性（少数类目占据大部分交互）使得个性化码本的收益具有理论上界——即使只对 top-10% 的兴趣类目进行精化，也能覆盖大部分推荐场景。
OpenOneRec 的开放数据集和模型可以作为验证平台。

预期贡献

学术价值： 首次提出推荐中的”个性化信息编码”问题，连接信息论和推荐系统的理论框架。
工业价值： 在不增加全局码本大小的前提下，提升活跃用户在其偏好领域的推荐精度；同时减少对非偏好领域的无效计算。

挑战与风险

个性化码本为每个用户（或用户群组）引入了额外的状态管理复杂度。在数亿用户的工业系统中，如何高效存储和检索个性化码本是核心工程挑战。
用户兴趣随时间变化，个性化码本需要动态更新，可能导致语义 ID 的时间不一致性。
如果个性化过度（码本过度适配用户当前兴趣），可能加剧”信息茧房”问题，限制推荐的探索性和多样性。

量化预期效果

以全局共享码本（$K=256$，$L=3$ 层）为基线，个性化精化码本预期在活跃用户（交互 $>100$ 次）的偏好领域内提升 cold-start 召回率 10-20%（估计值）。直觉依据：活跃用户在其偏好类目（如科幻电影）中面对的物品区分需求远超全局码本在该类目的分辨率——全局码本将 $256^3 \approx 1600$ 万个编码位均匀分配给所有类目，而个性化码本将精化容量集中到用户偏好的 top-3 类目（通常占用户 60-80% 的交互），使这些类目的有效分辨率提升 3-5x。对于不活跃用户（交互 $<20$ 次），因兴趣分布估计不准确，预期提升有限（$<3\%$）甚至可能略有下降。

最可能失败的原因

用户兴趣分布估计的噪声导致码字分配错误，反而降低推荐质量。 个性化码本的有效性完全依赖于用户兴趣分布 $P_u(\text{category})$ 的准确估计。但对于大多数用户（长尾用户），历史交互数据稀少（$<50$ 次），兴趣分布估计的方差极大——可能因为一次偶然的点击就将大量精化码字分配给实际上用户并不感兴趣的类目。更根本的问题是：用户的真实兴趣空间是连续和流动的，而码本分配是离散和相对静态的，两者之间的 mismatch 可能使得个性化码本在大部分时间里都是次优的，甚至不如全局码本的稳定性。Rescue path： 若长尾用户的个性化兴趣估计噪声过大，可采用层级 fallback 策略——个性化码本 → 群组码本 → 全局码本的三级回退。具体而言，当用户交互数据充足（$>100$ 次）时使用个性化精化码本；当数据中等（$20$-$100$ 次）时退回到用户群组级码本（按协同过滤聚类的用户群共享精化码字）；当数据稀少（$<20$ 次）时直接使用全局基础码本。这一层级 fallback 以牺牲部分个性化精度换取估计稳定性，确保在任何数据稀疏程度下都不劣于全局码本基线。

7.6 持续学习与遗忘控制：语义 ID 的时间稳定性

问题定义

工业推荐系统的物品库持续变化：每天有大量新物品上架、旧物品下架、现有物品属性更新。语义 ID 系统面临一个”稳定性-适应性困境”：(1) 如果语义 ID 保持不变（稳定性优先），新物品无法获得有效的 ID，物品属性变化无法反映在 ID 中；(2) 如果频繁重建语义 ID（适应性优先），之前训练的推荐模型中的 ID-行为关联将失效（灾难性遗忘），需要重新训练。

这一问题在快速迭代的内容平台（如短视频、新闻推荐）中尤为严重：每天数百万条新内容上架，内容生命周期仅为数小时到数天，语义 ID 的更新频率需要匹配内容的生命周期。

研究问题： 如何设计具备持续学习能力的语义 ID 系统，使其能够在不遗忘已有物品-ID 映射的前提下，高效吸收新物品并适应物品属性的变化？

技术路线

方案一：增量式码本扩展。 保持已有码字不变，仅为新物品分配新的码字路径。当新物品无法被现有码本充分表示时，在对应层级的码本中增加新码字。推荐模型通过增量训练（incremental training）学习新码字与用户行为的关联。

方案二：弹性权重整合（EWC）保护关键码字。 借鉴持续学习中的 Elastic Weight Consolidation [Kirkpatrick et al., 2017] 思想，识别码本中对推荐质量贡献最大的”关键码字”（通过 Fisher 信息矩阵估计），在码本更新时对这些关键码字施加更强的正则化约束，防止其偏移。新物品的码字分配在关键码字约束下的剩余空间中进行。

方案三：双速码本系统。 设计两套码本：(1) 慢码本（slow codebook）——更新频率低（如每月一次），编码物品的持久属性（类目、品牌等稳定信息），为推荐模型提供稳定的基础表示；(2) 快码本（fast codebook）——更新频率高（如每天），编码物品的时效性属性（热度、新鲜度等），快速适应内容变化。推荐模型同时使用两套码本，慢码本提供稳定性，快码本提供适应性。

持续学习的训练策略。 (1) 经验回放（experience replay）：在增量训练新物品-ID 映射时，混入历史物品的训练样本，防止对旧知识的遗忘；(2) 知识蒸馏（knowledge distillation）：用旧版本模型的预测作为正则化目标，约束新模型在旧物品上的行为一致性；(3) 渐进式码本热启动（progressive warm start）：新版本码本以旧版本码字为初始化，通过小学习率微调适配新物品。

可行性论证

持续学习领域已有大量工作关注序列推荐中的灾难性遗忘问题，证明了 EWC、LoRA 适配等方法在推荐场景中的有效性。
Semantic IDs Handbook [Ju et al., 2025] 提出的码本热启动策略是增量更新的工程实践基础。
PLUM 的 CPT（Continued Pre-training）阶段已展示了在 SID 更新后通过继续预训练恢复模型能力的可行性。
双速学习率（fast-slow learning rates）在元学习和持续学习文献中有丰富的理论支撑。

预期贡献

学术价值： 建立语义 ID 持续学习的理论框架，分析”稳定性-适应性”权衡的信息论下界。
工业价值： 减少因码本重建导致的全量模型重训练成本（当前工业系统中，每次码本更新可能需要数天的重训练）。在快速迭代的内容平台中实现”日级”甚至”小时级”的语义 ID 更新，使新内容在上架后快速获得高质量推荐。

挑战与风险

增量式码本扩展可能导致码本碎片化——不同时期添加的码字之间缺乏一致的语义结构。
EWC 等方法需要计算和存储 Fisher 信息矩阵，在大规模码本（数千码字 × 数百维）上的计算成本可能不可忽略。
双速码本系统增加了系统复杂度，快慢码本之间的交互和一致性维护是工程挑战。

量化预期效果

以当前工业实践中的全量码本重建+模型重训练（如 Semantic IDs Handbook [Ju et al., 2025] 描述的周期性更新策略）为基线，增量式持续学习方案预期将码本更新周期从”周级”压缩到”日级”甚至”小时级”，使新物品在上架后 1-2 小时内（而非 1-2 周后）获得高质量语义 ID 和有效推荐。量化估计：在短视频场景中（日均百万级新内容），将新内容首次获得有效推荐的平均等待时间从约 7 天缩短至 $<2$ 小时（估计值），对应新内容首日平均曝光量提升 50-200%。全量重训练成本（以 OneRec-V2 的 8B 模型为例，估计需数百 GPU 小时）可降低至增量更新的 5-10%（估计值），因为增量训练仅涉及新码字和受影响的模型参数。

最可能失败的原因

增量更新的语义漂移在多次迭代后累积，最终需要全量重建来”校准”。 持续学习的核心承诺是”永不全量重训练”，但实际中每次增量更新都会在码本的语义空间中引入微小的漂移——新码字的加入会改变已有码字的相对位置和语义关系。经过数十到数百次增量更新后（约 1-3 个月），累积的语义漂移可能导致码本的全局语义结构退化，表现为：(1) 不同时期加入的码字之间语义边界模糊，(2) 推荐模型中旧 ID-行为关联的准确性逐渐下降。Semantic IDs Handbook [Ju et al., 2025] 提出的码本热启动策略本质上是承认了这一问题——热启动仍然是一次全量重建，只是用旧码本作为初始化以加速收敛。最终，持续学习可能退化为”延长全量重建间隔”而非”消除全量重建”，实际工程收益可能远低于理论预期。Rescue path： 若增量漂移累积不可控，可安排周期性校准轮次——每隔固定增量更新次数（如每 50-100 次增量更新，约 1-2 个月），执行一次局部重量化：冻结高频使用的锚点码字（占码本 30-50%），仅对低频和新增码字进行重新聚类和量化对齐。这种”局部全量重建”的计算成本约为完整重建的 20-40%，但能有效校正累积漂移，将增量持续学习的有效运行时间从 1-3 个月延长至 6-12 个月后才需一次真正的全量重建。

7.7 端到端广告生成与拍卖机制联合优化

问题定义

当前的广告推荐系统将广告生成（推荐哪些广告）和拍卖机制（如何为广告定价和排序）视为两个独立的优化问题。广告推荐模型输出候选广告列表，拍卖机制（如 GSP、VCG）基于广告主的出价和预估 CTR 决定最终展示顺序和计费价格。然而，这种分离式设计存在根本性效率损失：推荐模型不知道广告主的出价和预算约束，可能生成经济上不可行的候选；拍卖机制不了解用户的深层偏好，可能将经济上最优但体验上次优的广告排在前面。

Beyond Cascaded Architectures [Zheng et al., 2025] 和 Generative Recommendation for Large-Scale Advertising [Xue et al., 2026] 已开始将广告约束整合到生成过程中，但目前的整合方式仍是”约束注入”（将预算和出价作为上下文输入），而非真正的联合优化。

研究问题： 能否将广告生成、出价预测和拍卖机制统一建模为一个端到端的生成过程，使模型在生成广告推荐时同时考虑用户偏好、广告主利益和平台收入的三方均衡？

技术路线

统一生成框架。 将广告推荐建模为受约束的序列生成问题。模型输入包含：用户行为序列、广告主预算/出价信息、当前竞价环境状态。输出为”广告-出价-价格”三元组的序列——每个位置同时生成推荐广告的 semantic ID、该广告的预估出价和建议计费价格。

可微拍卖层。 在生成模型的解码器之上添加一个可微的拍卖层（differentiable auction layer），将 GSP/VCG 拍卖规则的核心逻辑（排序规则、价格计算）实现为可微分的运算。这使得拍卖结果的梯度可以回传到生成模型，实现广告生成和拍卖机制的端到端联合训练。

多方博弈建模。 使用多 Agent RL 框架建模用户、广告主和平台三方的利益博弈。每方有各自的效用函数：用户追求推荐相关性（最小化广告干扰），广告主追求投资回报率（ROI），平台追求总收入和用户留存的长期平衡。通过纳什均衡或 Stackelberg 博弈求解三方的最优策略。

可行性论证

Beyond Cascaded Architectures [Zheng et al., 2025] 已验证了约束感知的广告生成框架在工业中的可行性。
已有工作开始探索在自回归解码中统一物品生成与出价-预算约束的技术路线。
SOLARIS [Liu et al., 2026] 在 Meta 广告系统中部署的推测性推理框架实现了 0.67% 的收入提升，证明了广告场景对生成式推荐技术的接受度。
可微拍卖的理论基础已在机制设计文献中得到充分发展（如 RegretNet [Dutting et al., 2019]）。

预期贡献

学术价值： 建立广告生成-拍卖联合优化的理论框架，连接生成式推荐与机制设计两个研究社区。
工业价值： 通过消除广告推荐与拍卖之间的信息壁垒，提升整体广告系统效率。初步估计，联合优化可以在不损害用户体验的前提下提升 5-15% 的平台广告收入。

挑战与风险

广告系统涉及真实的货币流转，模型错误的代价远高于内容推荐——一个错误的出价预测可能导致广告主的预算异常消耗。
可微拍卖层的数值稳定性是工程挑战——拍卖规则中的 argmax（排序）和阈值（保留价格）操作的可微近似可能引入训练不稳定性。
三方博弈的均衡求解在大规模系统中的计算复杂度需要仔细控制。

量化预期效果

以当前分离式广告系统（推荐模型独立于拍卖机制）为基线，联合优化的预期收益可从两个维度量化。平台收入维度： 预期 RPM（Revenue Per Mille，千次展示收入）提升 2-5%（估计值）。这一估计基于以下推理：SOLARIS [Liu et al., 2026] 仅通过推测性推理优化（未触及拍卖机制）即实现了 0.67% 的收入提升；联合优化消除了推荐-拍卖之间的信息壁垒，预期收益应显著高于单侧优化。上界参考：Google 在搜索广告中引入端到端拍卖优化后报告的收入提升约为 5-10%，但推荐广告的出价竞争密度低于搜索广告，因此保守估计 2-5%。广告主体验维度： 广告主 ROI（Return on Investment）的方差预期降低 15-25%（估计值），因为联合优化使模型在生成阶段即考虑预算约束，避免了”推荐了高 CTR 但超出广告主预算的广告”的无效曝光，从而减少广告主 ROI 的波动性。

最可能失败的原因

可微拍卖层的梯度估计在高竞争环境下不稳定。 拍卖机制的核心操作——排序（argmax）和价格计算（次高出价）——本质上是非连续的分段函数。可微拍卖层通过 softmax 温度退火或 Gumbel-Softmax 等技巧将这些操作近似为可微形式，但这些近似在高竞争场景下（多个广告主出价接近时）的梯度质量会急剧退化。具体地，当 top-$k$ 广告主的出价差距小于 softmax 温度参数 $\tau$ 时（估计值：$\tau < 0.01$ 时在工业规模拍卖中约 30-40% 的竞价属于此情况），梯度估计的方差会显著增大，导致联合训练出现震荡甚至发散。RegretNet [Dutting et al., 2019] 在小规模拍卖（$<10$ 个竞标者）中验证了可微拍卖的可行性，但推荐广告场景中每次请求可能涉及数百个候选广告主的竞争，非凸博弈景观的复杂度呈组合爆炸增长。此外，拍卖机制的策略性质意味着广告主可能针对可微拍卖层的梯度信号进行”出价博弈”（strategic bidding），导致联合优化的均衡点不稳定——模型可能陷入广告主与平台之间的”猫鼠游戏”循环，无法收敛到稳定的纳什均衡。Rescue path： 当端到端可微拍卖层的梯度震荡不可控时，可采用 straight-through estimator（STE）+ gradient clipping 的组合策略作为工程降级方案。具体而言，前向传播保持精确的 argmax 排序和次高出价计算（保证拍卖机制的激励相容性不被近似破坏），反向传播时使用 STE 将非连续操作的梯度替换为恒等映射或 softmax 温度固定的平滑近似，并对梯度范数施加严格裁剪（$|\nabla|_2 \leq \gamma$，$\gamma$ 根据出价分布的方差自适应调整）。这一方案牺牲了梯度估计的无偏性，但换取了训练稳定性——在实践中，有偏但低方差的梯度通常优于无偏但高方差的梯度。若 STE 仍不足以稳定训练，可进一步退回交替优化（alternating optimization）范式：推荐模型和拍卖模块交替固定/更新，每轮仅优化一侧，以避免联合优化中的博弈震荡，代价是收敛速度变慢（预计需要 2-3 倍训练时间）。

7.8 安全性、公平性与可解释性

问题定义

生成式推荐的自回归生成范式在赋予模型更强建模能力的同时，也引入了传统推荐系统中不曾面临（或程度更轻）的安全与公平性挑战：

（1）生成安全性。 自回归模型可能生成对应有害内容（暴力、歧视、虚假信息）的物品序列，尤其当模型在未经充分审核的用户行为数据上训练时，可能”学到”并放大这些有害模式。与传统级联系统中每个阶段可独立设置安全过滤器不同，端到端生成模型的安全防护需要嵌入到生成过程本身——一旦自回归解码开始沿有害路径生成 token，后续 token 的条件分布将被有害前缀”污染”，简单的后处理过滤无法根治这一问题。

（2）算法公平性。 生成式推荐的端到端统一模型将原本分散在各级联阶段中的偏差集中到单一模型中，使得偏差的来源更难定位和修正。更关键的是，语义 ID 的码本设计可能引入一种传统系统中不存在的结构性偏差：如果码本在某些物品类别上的分辨率低于其他类别（例如小众音乐类型被压缩到少数码字，而流行音乐占据大量码字），模型在生成阶段将系统性地偏向码本分辨率高的类别——即使训练数据中两类物品的交互频次相当。OneRec 全量实验中冷启动视频曝光下降 44.7%、聚类密度上升 11.7% 的现象（5.4.3 节），已经暴露了生成式推荐在内容生态多样性和创作者公平性上的风险。

（3）可解释性。 生成式推荐的”黑盒化”程度高于传统级联系统。传统系统中各阶段的中间结果（召回列表、排序分数、重排策略）可以作为调试和解释依据；端到端生成模型的决策过程完全封装在自回归 token 生成中，工程师和用户都难以理解”为什么生成了这个语义 ID 而不是那个”。随着欧盟 AI Act、中国《生成式人工智能服务管理暂行办法》等法规对算法透明度提出硬性要求，可解释性从”加分项”变为”必选项”。

研究问题： 如何在生成式推荐框架中建立系统性的安全防护、公平性保障和可解释性机制，使其在获得生成范式性能优势的同时，满足监管合规和用户信任的要求？

技术路线

安全性方向：Safety Reward Model 与分层防护架构。

核心技术路线是构建专用的安全奖励模型（Safety Reward Model, SRM），在 RL 对齐阶段将内容安全性纳入奖励函数，实现安全约束的”内化”而非外部过滤。具体设计包含三个层次：

（1）SRM 训练方法。 借鉴 NLP 领域 Constitutional AI [Bai et al., 2022] 的思路，构建推荐安全性的”宪法规则”——一组明确的安全准则（如”不得向未成年用户推荐成人内容”、”不得在用户表达负面情绪时推荐可能加剧情绪的内容”）。训练流程为：(a) 收集生成式推荐模型的采样输出；(b) 使用 LLM 对每个推荐列表进行安全性评估，依据宪法规则判定安全/不安全；(c) 在这些标注数据上训练 SRM，使其学会预测推荐列表的安全分数 $R_{\text{safe}}(\mathbf{y}, \mathbf{x}u)$。最终奖励函数为多目标加权：$R{\text{total}} = \alpha R_{\text{quality}} + (1-\alpha) R_{\text{safe}}$，其中 $\alpha$ 控制质量-安全权衡。

（2）约束解码的安全嵌入。 将内容安全规则编码为解码约束（参考 6.1.3 节的 constrained decoding 技术）。具体方案是在语义 ID 的前缀树上标记”安全/不安全”属性：对每个语义 ID 前缀路径，预先计算该路径下所有可达物品的安全分数分布；在 beam search 过程中，当某条路径的预期安全分数低于阈值时，直接剪枝该路径。这种”生成时约束”比”生成后过滤”更高效——避免了在不安全路径上浪费计算资源。

（3）后验审核与增量安全微调。 建立闭环安全监控：对模型在线生成的推荐列表持续进行安全分类（可使用轻量级安全分类器），统计安全违规率；当违规率超过预设阈值时，触发增量安全微调——使用近期发现的违规案例作为负样本进行 DPO 训练，快速修复模型的安全盲区。

公平性方向：Fairness-Aware Codebook 与序列级公平约束。

（1）码本均衡算法。 针对语义 ID 码本可能引入的结构性偏差，设计 fairness-aware codebook 构建算法。核心思想是在 RQ-VAE 的训练目标中引入均衡正则项：

\[\mathcal{L}_{\text{fair-RQ}} = \mathcal{L}_{\text{RQ-VAE}} + \lambda \sum_{l=1}^{L} D_{\text{KL}}\left( P_l^{\text{actual}} \| P_l^{\text{target}} \right)\]

其中 $P_l^{\text{actual}}$ 为第 $l$ 层码本中各码字的实际使用分布（按物品群组统计），$P_l^{\text{target}}$ 为目标分布（如按物品群组数量的均匀分布或比例分布）。该正则项强制码本在不同物品群组之间均匀分配表示容量，避免少数群组的物品在码本中被”压缩”到过少的码字上。实现上，可以在 RQ-VAE 每个训练 epoch 结束后统计各群组的码字占用情况，动态调整 $\lambda$ 的大小。

（2）序列级公平奖励。 在 RL 对齐阶段的奖励函数中加入公平性正则项。设物品按敏感属性（创作者身份、内容类别、地理来源等）分为 $G$ 个群组，定义曝光公平奖励：

\[R_{\text{fair}}(\mathbf{y}) = -\sum_{g=1}^{G} \left| \frac{n_g(\mathbf{y})}{|\mathbf{y}|} - \pi_g \right|\]

其中 $n_g(\mathbf{y})$ 为推荐列表 $\mathbf{y}$ 中属于群组 $g$ 的物品数，$\pi_g$ 为群组 $g$ 的目标曝光比例（可依据 demographic parity 或 equalized opportunity 标准设定）。该奖励项与推荐质量奖励共同优化，使模型在保持推荐精度的同时趋向公平曝光。

（3）公平性监控仪表盘。 构建实时公平性监控指标体系，核心指标的形式化定义如下：

群组曝光比率（Group Exposure Ratio, GER）。 衡量各群组获得的曝光是否与其目标比例一致：

\[\text{GER}_g = \frac{E_g / \sum_{g'} E_{g'}}{\pi_g}, \quad E_g = \sum_{u \in \mathcal{U}} \sum_{k=1}^{K} \frac{\mathbb{1}[y_k^{(u)} \in g]}{\log_2(k+1)}\]

其中 $E_g$ 为群组 $g$ 的位置折扣曝光量（借鉴 NDCG 的位置折扣机制），$\pi_g$ 为目标比例。$\text{GER}_g = 1$ 表示完全公平，$\text{GER}_g < 1$ 表示群组 $g$ 曝光不足。

个体公平性度量（Individual Fairness Metric, IFM）。 衡量相似用户是否获得相似的推荐结果 [Dwork et al., 2012]：

\[\text{IFM} = \mathbb{E}_{u_1, u_2 \sim \mathcal{U}} \left[ \frac{d_{\text{rec}}(\mathbf{y}^{(u_1)}, \mathbf{y}^{(u_2)})}{d_{\text{user}}(u_1, u_2) + \epsilon} \right]\]

其中 $d_{\text{user}}(u_1, u_2)$ 为用户偏好空间中的距离（基于行为嵌入的余弦距离），$d_{\text{rec}}(\mathbf{y}^{(u_1)}, \mathbf{y}^{(u_2)})$ 为推荐列表之间的距离（如 Jaccard 距离），$\epsilon$ 为平滑常数。IFM 值越低表示个体公平性越好——相似用户获得了相似的推荐。

监控仪表盘还包含：点击率差异（$\max_g \text{CTR}_g - \min_g \text{CTR}_g$）、推荐列表内群组多样性（intra-list diversity）、以及长期曝光趋势的基尼系数（Gini coefficient）。当任一指标偏离预设公平标准时，触发告警并自动调整公平奖励权重 $\lambda$。

可解释性方向：层级归因与对比解释。

（1）语义 ID 层级归因方法。 开发专用于生成式推荐的归因方法——在模型生成目标物品语义 ID 的每一层码字 $k_l$ 时，通过注意力权重分解或梯度归因（如 Integrated Gradients），分析输入行为序列中哪些历史行为对该层码字的选择贡献最大。由于语义 ID 具有”粗粒度→细粒度”的层级结构，归因结果天然形成层级化的推荐解释图：第一层归因解释”为什么推荐了这个类目”，第二层解释”为什么在该类目中选择了这个子类”，最后一层解释”为什么是这个具体物品”。

（2）对比解释机制。 设计”为什么推荐 A 而不是 B”的对比解释。给定两个候选物品 A 和 B 的语义 ID 序列，找到它们第一个分歧的码字层级 $l^$（即 $k_l^A = k_l^B$ 对 $l < l^$，但 $k_{l^}^A \neq k_{l^}^B$），然后在该层级进行归因分析——哪些用户历史行为导致模型在 $l^$ 层选择了 $k_{l^}^A$ 而非 $k_{l^*}^B$。这种基于语义 ID 分歧点的对比解释比传统的特征重要性解释更具信息量，因为它直接定位了推荐决策的关键分叉点。

（3）推理链与推荐的联合生成。 结合 4.3 节的推理增强方法，设计”推理-推荐”联合生成架构：模型在生成物品语义 ID 之前，先生成一段简短的推理链 token（如”用户近期偏好从科幻转向悬疑 → 推荐悬疑类 → 选择高评分新作”），推理链的隐状态作为后续语义 ID 生成的条件上下文。推理链既提供可解释性，又通过显式推理提升推荐质量（参见 Think before Recommendation 的实证结果）。训练时使用推理蒸馏——先用大 LLM 生成高质量推理链标注，再训练推荐模型学习生成这些推理链。

可行性论证

安全方向的技术成熟度。 NLP 领域的 Constitutional AI [Bai et al., 2022] 已在 LLM 安全对齐中取得成功，其”宪法规则 + AI 评估 + RL 训练”流程可直接迁移至推荐场景。推荐的安全判定比语言生成更简单——推荐物品来自有限的物品库，安全标签可以预先标注在物品元数据中，无需实时判定生成文本的安全性。OneRec 的 RLHF 实践（4.5 节）已验证了多目标奖励函数在工业系统中的可行性，增加安全奖励项的边际工程成本有限。
公平性约束的理论基础。 传统推荐系统的公平性研究已有十年积累：FairRec [Patro et al., 2020] 建立了双边公平性框架，Singh & Joachims [2018] 的公平排序理论提供了曝光公平的数学形式化。这些框架从”逐物品打分”适配到”序列生成”的技术挑战主要在于：(a) 将逐物品的公平约束转化为序列级奖励，(b) 在自回归解码过程中高效验证公平约束是否满足——这两个问题都有可行的技术路径（如上述序列级公平奖励和前缀树上的群组统计）。
可解释性的已有基础。 4.3 节的推理增强推荐（ReasoningRec、Think before Recommendation 等）已证明生成式推荐可以输出可读的推理链。PROMISE [Guo et al., 2026] 的过程奖励模型为”逐步验证生成质量”提供了技术工具，可以扩展为”逐步验证安全性和公平性”——在每个码字生成步骤检查安全和公平约束。语义 ID 的层级结构为层级归因提供了天然的结构化框架，这是传统推荐系统中原子 ID 所不具备的优势。
监管合规的现实驱动。 欧盟 DSA（Digital Services Act）要求推荐系统提供”主要参数的解释”，中国《互联网信息服务算法推荐管理规定》要求”向用户提供不针对其个人特征的选项”。这些法规要求正在从”建议遵守”变为”强制合规”，为安全/公平/可解释性研究提供了明确的工业需求拉动力。

预期贡献

学术价值： 建立生成式推荐中安全-公平-可解释性的统一分析框架，填补该领域在负责任 AI 方面的研究空白。特别是 fairness-aware codebook 和语义 ID 层级归因方法，是生成式推荐特有的技术问题，无法简单从传统推荐公平性文献中迁移。
工业价值： 随着生成式推荐在工业系统中的大规模部署（OneRec 已服务快手 25% 流量），安全和公平性保障从”锦上添花”变为”监管刚需”。SRM + 约束解码的分层防护架构可以在不显著增加推理延迟的前提下提供安全保障。公平性监控仪表盘可作为监管审计的工具支撑。
用户价值： 层级化的推荐解释（”因为你最近从科幻转向悬疑 → 选择了悬疑类 → 推荐了这部高分新作”）比传统的”猜你喜欢”式解释更具信息量，有助于建立用户信任、提升用户对推荐系统的可控感和满意度。

挑战与风险

安全-质量权衡的定量化。 安全约束可能与推荐质量存在张力——过度严格的安全过滤可能导致推荐结果趋于保守和同质化。核心挑战在于量化这一权衡：$\alpha$ 参数（质量-安全权重）的最优值可能因场景（儿童推荐 vs 成人推荐）、内容类型（新闻 vs 娱乐）和时间（敏感事件期间 vs 日常）而异，需要建立自适应的权衡机制而非固定阈值。
公平性定义的多方冲突。 公平性在推荐场景中的定义本身存在深层争议。用户侧公平（每个用户获得同等质量的推荐）、创作者侧公平（每个创作者获得与内容质量成比例的曝光）和平台侧公平（不同广告主获得与出价成比例的展示机会）三者之间可能存在不可调和的矛盾。特别是，demographic parity 和 equalized opportunity 在推荐场景中的适用性仍有学术争论——”相同的推荐结果”不等于”相同的推荐体验”，因为不同用户群体的偏好分布本身可能存在差异。
可解释性与延迟的矛盾。 推理链的生成增加了推理计算成本：生成 50 个推理 token 的延迟可能与生成 3 个语义 ID token 的延迟相当，使总推理时间翻倍。在实时推荐场景（数十毫秒延迟要求）中，可能需要采用”按需解释”策略——常规请求仅生成推荐结果，用户主动请求解释时才触发推理链生成；或者采用离线预生成解释缓存的方式降低在线延迟。
归因方法的技术空白。 语义 ID 级别的归因分析在技术上尚无成熟方案。传统的梯度归因方法（如 Integrated Gradients）在离散 token 空间中的应用需要克服不可微的 argmax 操作；注意力权重归因的因果有效性在 NLP 领域本身就存在争议（注意力权重不等于因果贡献）。开发可靠的语义 ID 归因方法需要结合因果推断理论，这增加了研究难度。
评估方法论的缺失。 当前缺乏系统性的评估框架来衡量安全/公平/可解释性措施对推荐系统整体效果的综合影响。例如，如何量化”增加可解释性后用户信任度的提升”、”公平约束对长期用户留存的影响”——这些跨维度的评估需要新的实验设计方法论和长周期在线实验。

量化预期效果

以当前工业系统中基于规则的安全过滤（关键词匹配 + 人工审核 + 规则引擎）为基线，SRM + 约束解码的分层防护架构预期在三个维度上实现可量化的提升。安全覆盖率： 安全过滤覆盖率从规则系统的约 85%（估计值，基于规则系统对长尾有害模式的覆盖不足）提升至 95%+，同时误杀率（将安全内容误判为不安全）降低 30-50%（估计值）。规则系统的核心瓶颈在于无法捕捉上下文依赖的有害模式（如单独看无害但在特定用户状态下可能有害的内容组合），SRM 的序列级建模能力可以弥补这一缺陷。公平性改善： 通过 fairness-aware codebook 和序列级公平奖励，预期将群组曝光比率（GER）的偏差从当前的 $

\text{GER}_g - 1

> 0.3$（对小众类别）降低至 $

\text{GER}_g - 1

< 0.15$（估计值），同时推荐质量（NDCG@10）的损失控制在 1-3% 以内。参考 OneRec 全量实验中冷启动视频曝光下降 44.7% 的数据，fairness-aware codebook 的码字均衡分配预期可将冷启动物品的曝光降幅缩小至 10-15%。可解释性覆盖率： 层级归因方法预期可为 80-90% 的推荐结果提供可解释的层级归因路径（从类目→子类→具体物品），满足欧盟 DSA 和中国《算法推荐管理规定》对”主要参数解释”的合规要求。

最可能失败的原因

安全标注的主观性导致 SRM 的一致性低。 SRM 的训练质量取决于安全标注数据的质量，而推荐内容的安全性判定比 NLP 文本的毒性判定具有更强的主观性和上下文依赖性。例如，一个格斗视频在体育频道是正常内容，但推荐给有暴力倾向标签的用户则可能不安全——这种上下文依赖的安全判定极难形成一致的标注标准。估计值：推荐安全标注的标注者间一致性（inter-annotator agreement，以 Cohen’s $\kappa$ 衡量）预计仅为 $\kappa \approx 0.5$-$0.65$（参考 NLP 毒性标注的 $\kappa$ 通常在 0.6-0.8 之间，推荐场景的上下文依赖性使一致性进一步下降），显著低于可靠训练 SRM 所需的 $\kappa > 0.7$ 门槛。低一致性的标注数据训练出的 SRM 将产生大量边界案例的不一致判定——同一内容在相似上下文下时而被判定为安全、时而被判定为不安全——这不仅损害用户体验（感知推荐”抽风”），还可能引发监管质疑（”你的安全标准是什么？”）。Constitutional AI 的”宪法规则”在 NLP 中有效，是因为语言毒性的判定标准相对明确且可编纂；但推荐安全性的”宪法”需要编纂数千条上下文敏感的规则（用户年龄 × 内容类型 × 浏览情境 × 时间段 × 地区法规），规则的组合爆炸使得”宪法”的完备性和一致性难以保证。Rescue path： 若标注一致性低导致 SRM 判定不稳定，可引入 active learning 聚焦高分歧样本——首先用多个标注者对初始样本集进行标注，计算每个样本的标注者间分歧度（以 $\kappa$ 或 Fleiss’ $\kappa$ 衡量），然后将 active learning 的采样策略聚焦于高分歧样本（$\kappa < 0.5$ 的边界案例），通过多轮标注-讨论-共识（adjudication）迭代提升这些难样本的标注质量。同时，对于分歧度持续无法收敛的样本（即”真正主观”的边界案例），不强行打标而是将其标记为”需上下文判定”类别，交由基于规则的后处理模块根据用户画像动态决策，避免 SRM 在高噪声区间的不稳定预测。

7.9 自回归与非自回归混合生成式推荐（AR-NAR Hybrid Generation）

问题定义

自回归（AR）与非自回归（NAR）生成代表了生成式推荐中延迟-质量权衡的两个极端：AR 方法（OneRec、PLUM 等）通过逐 token 串行解码实现高质量生成，但推理延迟与序列长度线性相关（$O(L)$）；NAR 方法（NAR4Rec、NLGR）通过并行生成实现近常数时间推理（$O(1)$），但因忽略 token 间的条件依赖而牺牲生成质量。7.0 节已指出这一延迟-质量权衡是当前范式的内在局限，而 4.7 节的分析表明 NAR 方法在语义 ID 端到端生成式检索中的应用仍然有限——NAR 在重排序阶段有效，但在需要建模语义 ID 层级依赖的检索阶段面临质量崩塌风险。

形式化问题定义。 设生成式推荐模型的目标是生成 $L$ 层语义 ID 序列 $\bm{y} = (y_1, y_2, \dots, y_L)$，给定用户上下文 $\bm{c}$。AR 生成建模联合概率为：

\[P_{\text{AR}}(\bm{y}|\bm{c}) = \prod_{l=1}^{L} P(y_l | y_{<l}, \bm{c})\]

每步解码依赖前一步输出，推理需 $L$ 步串行前向传播。NAR 生成假设条件独立：

\[P_{\text{NAR}}(\bm{y}|\bm{c}) = \prod_{l=1}^{L} P(y_l | \bm{c})\]

单步并行生成所有 token，但丢失了层级间的条件依赖——对语义 ID 而言，这意味着第二层码字的生成不知道第一层选择了哪个粗类别，导致语义不一致。

研究问题： 能否设计一种 AR-NAR 混合生成框架，在保持 AR 生成质量的同时逼近 NAR 的推理速度？具体而言，能否实现 $O(1)$ 到 $O(\log L)$ 的推理延迟，同时生成质量损失控制在 $<1\%$（NDCG@10 相对下降）？

为什么现有方法不够

简单的 AR 和 NAR 拼接无法实现最优的延迟-质量权衡：

纯 AR 的延迟瓶颈不可消除。 Speculative decoding（AtSpeed [Lin et al., 2025]、LASER [Xi et al., 2025]）通过「先猜后验」实现 2-5x 常数加速，但本质上仍是 AR 解码——草稿模型和验证模型都需要串行执行，最坏情况下回退到标准 AR。对于 $L=3$ 的典型语义 ID 配置加速空间有限（3 步已经很短）。
纯 NAR 的质量损失在检索阶段不可接受。 NAR4Rec 和 NLGR 在重排序阶段有效（固定候选集上优化排列），但在语义 ID 生成式检索中，各层码字之间存在强条件依赖（第一层决定粗类别如「科幻电影」，第二层在该类别下细化如「硬科幻 vs 太空歌剧」）。NAR 的条件独立假设导致生成的 ID 各层语义不一致（如第一层选了「科幻」但第二层选了「爱情片」子类），生成幻觉率显著上升。
简单的分层策略（前几层 AR + 后几层 NAR）缺乏理论指导。 如何确定 AR 和 NAR 的分界层、各层的条件依赖强度如何量化、分界策略是否应因用户/物品而异——这些问题缺乏系统性的分析框架。

技术路线

核心 Insight：用 NAR 做粗粒度候选生成 + AR 做精细化验证/排序。 借鉴 NLP 领域 speculative decoding 的「草稿-验证」思想，但将其推广为「NAR 草稿 + AR 验证」的异构混合：

方案一：层级自适应混合（Hierarchical Adaptive Hybrid）。

量化语义 ID 各层之间的条件依赖强度 $I(y_l; y_{<l}

\bm{c})$（条件互信息），将层级划分为「强依赖层」（AR 解码）和「弱依赖层」（NAR 并行解码）。形式化为：

\[P_{\text{Hybrid}}(\bm{y}|\bm{c}) = \underbrace{\prod_{l \in \mathcal{S}_{\text{AR}}} P(y_l | y_{<l}, \bm{c})}_{\text{AR 解码强依赖层}} \cdot \underbrace{\prod_{l \in \mathcal{S}_{\text{NAR}}} P(y_l | y_{\mathcal{S}_{\text{AR}}}, \bm{c})}_{\text{NAR 并行解码弱依赖层}}\]

其中 $\mathcal{S}{\text{AR}} \cup \mathcal{S}{\text{NAR}} = {1, \dots, L}$，NAR 层仅依赖 AR 层的输出而非所有前序层。对于典型的 3 层语义 ID，如果第 1 层（粗类别）与第 2-3 层（细粒度属性）之间依赖最强，则第 1 层 AR 解码，第 2-3 层以第 1 层结果为条件 NAR 并行解码——总推理从 3 步减少到 2 步。

CMI 的估计方法。 条件互信息 $I(y_l; y_{<l}

\bm{c})$ 的精确计算复杂度为 $O(K^{L-1})$（需遍历前序层所有 $K^{L-1}$ 种码字组合进行边际化），对于典型配置 $K=256, L=3$ 即 $O(256^2) \approx 6.5 \times 10^4$——虽然理论上可行，但在需要对大量用户上下文重复估计时成本过高。实际部署中推荐使用蒙特卡洛（MC）近似，以 $M$ 个采样替代穷举，将复杂度降至 $O(M \times L)$（$M$ 通常取 100-500 即可获得稳定估计）。除 MC 近似外，还可采用以下两种结构化估计策略。变分下界估计： 借鉴 MINE（Mutual Information Neural Estimation）[Belghazi et al., 2018] 的思想，训练一个变分网络 $T_\phi$ 近似 CMI 的 Donsker-Varadhan 下界：

\[\hat{I}(y_l; y_{<l} | \bm{c}) = \sup_\phi \left[\mathbb{E}_{p(y_l, y_{<l} | \bm{c})}[T_\phi(y_l, y_{<l}, \bm{c})] - \log \mathbb{E}_{p(y_l | \bm{c}) p(y_{<l} | \bm{c})}[e^{T_\phi(y_l, y_{<l}, \bm{c})}]\right]\]

其中联合分布样本来自训练数据，边际乘积分布通过随机打乱 $y_l$ 和 $y_{<l}$ 的配对构造。对比估计（更轻量的替代方案）： 直接利用已训练的 AR 模型计算 $\hat{I}_l = H(y_l

\bm{c}) - H(y_l

y_{<l}, \bm{c})$，其中条件熵 $H(y_l

y_{<l}, \bm{c})$ 可从 AR 模型的 softmax 输出直接读取，边际熵 $H(y_l

\bm{c})$ 通过在 $y_{<l}$ 上边际化估计。精确边际化的复杂度随层深指数增长：第 2 层需遍历 $K$ 种 $y_1$ 配置，第 3 层需遍历 $K^2$ 种 $(y_1, y_2)$ 配置（$K=256$ 时约 65K 次前向传播）。实际部署中可采用 MC 采样近似——从 AR 模型的自回归分布 $P(y_{<l}

\bm{c})$ 中抽取 $M$ 个样本（$M$ 取 256-1000 即可获得稳定估计），将复杂度降至 $O(M \times L)$。推荐使用对比估计，因其复用已有 AR 模型无需额外训练，在单 GPU 上可在分钟级完成。

方案二：NAR 候选 + AR 重评分（NAR-Draft, AR-Rerank）。

借鉴 speculative decoding 的思想但更激进——用轻量 NAR 模型一次性生成 $K$ 个完整的语义 ID 候选序列（每个 $L$ 个 token），再用 AR 模型对这 $K$ 个候选进行评分和排序：

\[\{\bm{y}^{(1)}, \dots, \bm{y}^{(K)}\} = \text{NAR-Generate}(\bm{c}), \quad \hat{\bm{y}} = \arg\max_{\bm{y}^{(k)}} P_{\text{AR}}(\bm{y}^{(k)}|\bm{c})\]

NAR 生成的 $K$ 个候选覆盖足够大的搜索空间（$K = 100$-$1000$），AR 评分仅需一次前向传播（teacher-forcing 模式，无需串行解码），总延迟为 $O(1)$（NAR 生成）+ $O(K)$（AR 并行评分），且 $K$ 个候选的 AR 评分可以高度并行化。

方案三：Iterative NAR Refinement。

借鉴 CMLM（Conditional Masked Language Model）的思想，通过迭代 NAR 解码逐步提升生成质量：初始 NAR 生成所有 $L$ 个 token，每轮迭代遮蔽置信度最低的 token 并重新预测，经 $R$ 轮迭代后输出。总推理步数为 $R$（$R \ll L$ 时仍有加速），且每轮可并行处理所有 token。这一方案特别适合推荐场景——推荐的「正确答案」不是唯一的，允许一定程度的近似，$R=2$-$3$ 轮迭代可能已足够。

量化预期效果

基于现有数据的 back-of-envelope 估计：

延迟降低。 方案一（层级混合，$L=3$，1 层 AR + 2 层 NAR）：推理步数从 3 步降至 2 步，预期延迟降低 30-35%（非线性因素包括 NAR 并行层的 batch 开销）。方案二（NAR-Draft + AR-Rerank，$K=512$）：NAR 生成约 5ms + AR 评分约 15ms（参考 OneRec-V2 的 36ms/3 步，单步约 12ms），总延迟约 20ms，相比标准 AR 的 36ms 降低约 45%。方案三（Iterative NAR，$R=2$）：预期延迟降低 30-40%。综合三种方案，预期延迟降低 30-50%。
质量损失。 方案一保留最强依赖层的 AR 解码，质量损失主要来自弱依赖层的独立性假设，预期 NDCG@10 下降 $<0.5\%$。方案二通过 AR 重评分保障质量上界，当 $K$ 足够大时（NAR 候选覆盖真实目标），质量损失趋近零，预期 $<1\%$。方案三随迭代次数 $R$ 增加质量单调提升，$R=2$ 时预期下降 $<1\%$。综合估计 NDCG@10 相对下降 $<1\%$。

最可能失败的原因

NAR 候选的覆盖率不足。 如果 NAR 模型的生成多样性不足（所有候选集中在少数模式），则 AR 重评分也无法恢复质量——这是「garbage in, garbage out」问题。语义 ID 的码本空间（$K^L$，如 $256^3 \approx 1600$ 万）远大于推荐列表长度（$\sim100$），NAR 模型可能无法在 $O(1)$ 步内生成足够覆盖真实目标的候选集。
条件互信息的估计不准确。 方案一依赖对层级间条件依赖强度的准确估计，而这一估计本身需要大量数据和计算。如果误判强依赖层为弱依赖层（将其分配给 NAR），将导致严重的质量退化。
训练复杂度增加。 AR-NAR 混合模型的训练需要同时优化两种生成范式的目标函数，可能存在梯度冲突和训练不稳定问题。特别是方案二需要分别训练 NAR 草稿模型和 AR 评分模型，训练成本翻倍。

Rescue path： 若条件互信息（CMI）估计不准确导致 AR/NAR 层级划分失误，可采用固定分区作 baseline + 学习微调的保守策略——默认将第 1 层（粗类别）固定分配为 AR 解码，后续层固定为 NAR 并行解码（对于典型 $L=3$ 的语义 ID，这一固定分区已将推理从 3 步降至 2 步），然后在此固定分区基础上引入可学习的”分区置信度”参数，通过在线 AB 测试的效果反馈微调分区边界。这一策略绕过了 CMI 精确估计的难题，以工程试错替代理论最优，代价是无法实现动态的用户/物品自适应分区，但在 CMI 估计方法成熟之前提供了稳健的加速基线。

预期贡献

学术价值： 首次在生成式推荐中形式化 AR-NAR 混合生成问题，建立条件互信息指导的层级分配理论框架，为推荐中的延迟-质量 Pareto 最优提供理论分析工具。
工业价值： 在不显著损失推荐质量的前提下将推理延迟降低 30-50%，使生成式推荐可以部署到更多延迟敏感场景（如广告竞价 $<10$ms、实时重排序 $<20$ms）。与 speculative decoding 互补——speculative decoding 优化「相同范式内的常数加速」，AR-NAR 混合优化「跨范式的复杂度阶降低」。

7.10 小结：从方法创新到系统级变革

本章提出的九个研究方向可以按照技术成熟度和影响范围分为三个层次：

近期可实现（1-2 年）。 Test-time compute scaling（7.3 节）、持续学习与遗忘控制（7.6 节）、安全性/公平性/可解释性（7.8 节）和 AR-NAR 混合生成（7.9 节）。这四个方向有充分的前置工作支撑（NAR4Rec/NLGR 的工业验证、PROMISE 的 test-time scaling 初步证据、Constitutional AI 的安全对齐框架），且工业需求明确，预计在 1-2 年内会出现系统性的解决方案。

中期攻关（2-3 年）。 推荐 Scaling Law（7.2 节）、多模态 tokenization（7.4 节）和个性化 token vocabulary（7.5 节）。这些方向需要更大规模的实验验证和跨领域技术整合，但基础技术栈已基本就绪。

长期愿景（3-5 年）。 推荐世界模型（7.1 节）和端到端广告生成-拍卖联合优化（7.7 节）。这两个方向涉及推荐系统架构的根本性变革，需要理论突破和大规模工程实践的共同推进。

Rescue path 策略分类学。 上述九个方向均设计了”rescue path”——当核心技术假设不成立时的降级回退方案。回顾这些 rescue path，我们识别出四种策略类型，它们构成了一个从方法论层面指导未来研究风险管理的分类学框架：

范围缩窄型： 降低目标野心但保留核心价值。代表案例：世界模型的短程 rollout（7.1，放弃完全替代 A/B 测试，但保留小时级策略预筛选）、持续学习的局部重量化（7.6，放弃永不全量重建，但将重建周期从月级延长至半年级）。这类策略的本质是在可行性边界内最大化收益。
方法替换型： 切换到更鲁棒的替代技术路线。代表案例：test-time compute 的 ensemble-based scoring（7.3，用多模型投票替代单一 PRM 引导）、Scaling Law 的 ensemble scaling prediction（7.2，用多条 scaling curve 的保守包络线替代单一幂律拟合）、多模态 tokenization 的分模态 fallback（7.4，退回独立 tokenizer + 后融合替代端到端统一 tokenizer）。这类策略通过引入冗余和多样性来对冲单一方法的失败风险。
工程近似型： 牺牲理论最优性换取工程稳定性。代表案例：广告拍卖的 STE + gradient clipping（7.7，用有偏但低方差的梯度替代精确但不稳定的梯度）、AR-NAR 混合的固定分区 baseline（7.9，绕过 CMI 精确估计，以工程试错替代理论最优）、个性化 vocabulary 的层级 fallback（7.5，个性化码本 → 群组码本 → 全局码本的三级回退）。这类策略体现了”可用性优先于最优性”的工程哲学。
数据驱动修正型： 用更高质量的数据弥补方法缺陷。代表案例：安全性的 active learning 聚焦高分歧样本（7.8，通过迭代标注-讨论-共识提升边界案例的标注质量）。这类策略认识到数据质量往往是系统瓶颈，方法改进的天花板受限于训练信号的可靠性。

这一分类学的实践意义在于：研究者在提出新方向时，应同时规划其 rescue path 属于哪种类型，并评估降级后的残余价值是否仍然足以支撑研究投入。一个好的研究方向不仅在最优情况下有突破性贡献，其 rescue path 也应在次优情况下提供有意义的工程价值。

Rescue path 决策矩阵。 为方便研究者快速判断应采用哪类 rescue 策略，我们将上述分类学形式化为以下决策矩阵：

失败特征	推荐策略	典型场景	残余价值估计
方法在简化条件下有效，但全条件下失败	范围缩窄型	世界模型长程 rollout 不可靠→短程仍有效	原始目标的 40-60%
存在更鲁棒的替代方法但性能略低	方法替换型	PRM 饱和→ensemble scoring	原始目标的 60-80%
方法理论最优但工程不稳定	工程近似型	可微拍卖梯度震荡→STE 近似	原始目标的 70-90%
方法本身可行但训练信号质量不足	数据驱动修正型	安全标注一致性低→active learning	随数据迭代渐进提升

该矩阵的使用方式：(1) 诊断失败的根本原因属于哪一行；(2) 选择对应的策略类型；(3) 基于残余价值估计判断是否值得继续投入。当失败原因复合时（如既有工程不稳定又有数据质量问题），应按”先工程近似稳定系统，再数据驱动提升天花板”的优先级顺序执行。

贯穿所有方向的两个元趋势：

从”模型创新”到”系统创新”。 生成式推荐的下一阶段瓶颈不再是模型架构本身，而是围绕模型的系统级设计——世界模型构建离线评估闭环，test-time compute 实现计算弹性，持续学习保障系统长期可靠性。
从”通用方案”到”个性化方案”。 全局码本、统一推理预算、固定更新周期——这些”一刀切”的设计正在被用户感知的个性化方案所替代。个性化 token vocabulary 是这一趋势的直接体现，但其理念可以延伸到个性化推理深度、个性化更新频率等多个维度。

九个方向之间的依赖与协同关系。 上述研究方向并非相互独立的平行线，而是构成一张存在显著依赖和协同效应的技术关系网。理解这些交叉关系对于规划研究路线和资源分配至关重要。

首先，Scaling Law（7.2）是多个方向的基础设施层。世界模型（7.1）的保真度本质上取决于模型规模——只有在充分的 compute 投入下，生成的用户行为轨迹才足够逼真以支撑可靠的策略评估。多模态 tokenization（7.4）引入的额外模态信息显著增加了参数需求，其可行性边界由 scaling law 的 compute-optimal 配置决定。因此，Scaling Law 的研究进展将直接约束或释放 7.1 和 7.4 的技术天花板。

其次，个性化 token vocabulary（7.5）与持续学习（7.6）构成双向耦合。动态码本需要持续学习机制来适应新物品和用户偏好漂移，而持续学习中的灾难性遗忘问题在个性化码本场景下更为严峻——每个用户子空间的码本更新频率和幅度不同，全局正则化策略难以适配。反过来，持续学习的稳定性保障也依赖于 token vocabulary 的时间稳定性设计（如锚点码字冻结策略）。这两个方向的联合推进可能比独立研究更为高效。

第三，test-time compute（7.3）与安全/公平性（7.8）存在资源竞争与目标协同的双重关系。增加推理时计算可以支持更精细的安全约束检查（如多步推理验证推荐内容的合规性）和公平性再排序（如在 beam search 中注入群组公平约束），但额外的计算预算本身受限于延迟要求。两者需要在统一的计算预算分配框架下联合优化，而非独立设计后简单叠加。

第四，世界模型（7.1）与广告生成-拍卖优化（7.7）可以共享模拟器基础设施。世界模型构建的用户行为模拟器，经过扩展加入广告主竞价行为建模后，可直接服务于广告场景的离线策略评估——避免在真实竞价环境中进行高风险的策略实验。这两个方向的协同开发可以摊薄模拟器构建的高昂成本。

第五，AR-NAR 混合生成（7.9）与 test-time compute（7.3）、speculative decoding 形成技术互补。AR-NAR 混合从「跨范式复杂度阶降低」的角度优化延迟，speculative decoding 从「同范式常数加速」的角度优化延迟，两者可以组合使用——在混合框架的 AR 部分应用 speculative decoding，进一步压缩延迟。同时，test-time compute 的「价值感知计算分配」思想可以扩展到 AR-NAR 混合中：高价值请求使用纯 AR 保障质量，低价值请求使用更激进的 NAR 比例降低延迟。

最后，7.0 节指出的范式内在局限为所有方向提供了优先级校准。自回归延迟问题直接提升了 AR-NAR 混合生成（7.9）和 test-time compute（7.3）中 speculative decoding 研究的紧迫性；语义 ID 信息损失问题使得多模态 tokenization（7.4）和个性化 vocabulary（7.5）的码本设计需要将信息论分析作为前置工作；单点故障风险则要求持续学习（7.6）和安全性（7.8）方向在设计时内置降级和容错机制。

第 8 章结论

8.1 核心观点总结

本综述系统梳理了生成式推荐从 2022 年概念提出到 2026 年工业部署与开放生态建设的完整演进历程。回顾全文，我们提炼出以下五个核心 takeaway：

Takeaway 1：生成式推荐是推荐系统范式的根本性变革，而非渐进式改进——但这一范式转变仍处于早期验证阶段，其”根本性”程度取决于规模效应能否兑现。传统级联架构（召回→粗排→精排→重排）在过去十年间通过持续的特征工程和模型优化取得了巨大成功，但其信息损失、任务割裂和端到端优化困难等结构性缺陷已接近优化极限。生成式推荐通过将推荐重新定义为条件序列生成问题，从架构层面消除了这些缺陷——单一自回归模型替代整条流水线，梯度贯穿全过程，统一建模消除信息瓶颈。OneRec [Zhou et al., 2025] 在快手的工业实践以令人信服的在线实验数据证明，端到端生成式架构可以全面超越经过多年优化的传统级联系统。然而，必须清醒地认识到当前工业实践中的效果提升幅度：OneRec 的 A/B 测试显示 App Stay Time 提升约 +0.5-0.7%，LT7 留存提升约 +0.03-0.07%——这些增幅在工业系统中虽然统计显著且具有商业价值，但相对于传统级联系统的持续优化而言，尚属于”显著但非颠覆性”的量级。更值得警惕的是，OneRec 全量部署时冷启动视频曝光下降 44.7%、聚类密度上升 11.7%（5.4.3 节），暴露了生成式范式在内容生态多样性和创作者公平性上的严重不足——一个在多样性上存在如此显著退化的系统，是否有资格被称为”范式转变”值得深思。我们倾向于认为，生成式推荐的范式变革潜力是真实的，但其兑现路径尚不明朗。一种可能性是 scale 效应——类似 LLM 从 GPT-2（2019）到 GPT-3/4 的规模跃迁带来了能力质变。但推荐领域与语言建模存在本质差异：推荐数据的噪声远高于文本语料（7.2 节），scaling law 的形态可能依赖于物品表示方式而非简单的幂律外推 [Liu et al., 2025]。因此，推荐领域是否存在类似的规模临界点、scale 是否是唯一的兑现路径，抑或需要在数据质量、对齐方法、系统设计等多维度协同突破，仍是需要实证回答的开放问题。值得注意的是，生成式推荐的技术路线已超越纯自回归范式：扩散模型（DiffRec [Wang et al., 2023b]、DiffuRec [Li et al., 2023b]、DreamRec [Yang et al., 2023]）提供了基于去噪过程的并行生成替代方案，非自回归方法（NAR4Rec [Ren et al., 2024]、NLGR [Wang et al., 2025d]）已在快手和美团的工业系统中证明了近常数时间推理的可行性。多条技术路线的并存与互补，使生成式推荐的方法论体系更加完整和成熟。

Takeaway 2：语义 ID 是连接”生成空间”与”物品空间”的关键桥梁。 从 TIGER [Rajput et al., 2023] 开创性地提出 RQ-VAE 语义 ID，到 LC-Rec 的语义-协同对齐，再到 PLUM [He et al., 2025] 的多模态多分辨率 SIDv2，语义 ID 的设计经历了从纯内容语义到融合协同信号、从单模态到多模态的演进。语义 ID 解决了生成式推荐的核心技术难题——如何将离散、无结构的物品空间转化为具有层级语义结构的可生成 token 空间。码本大小、层级数、协同对齐策略等设计选择深刻影响着系统的生成质量、推理效率和可维护性。

Takeaway 3：推荐系统存在类似 LLM 的 compute scaling law，且正在从”借用 LLM”走向”构建推荐专用基础模型”。 HSTU [Zhai et al., 2024] 首次证明推荐模型的质量随训练计算量呈幂律关系增长，跨越三个数量级。PLUM [He et al., 2025] 在 MoE 架构上进一步验证了这一规律。这一发现意味着推荐系统的进步路径可以从”更好的特征工程”转向”更大的计算投入”。OneRec-V2 的 lazy decoder-only 架构和 OpenOneRec [Zhou et al., 2026] 的开放基础模型标志着推荐专用基础模型的兴起。

Takeaway 4：从最大似然训练到奖励对齐是提升推荐质量的关键一步。 标准的 MLE 训练优化”模仿历史行为”，但推荐的真实目标是”提升用户满意度”。OneRec 的 RLHF 实践和 GFlowGR 的序列级奖励优化证明，通过强化学习将优化目标从 token 级似然转向序列级用户满意度奖励，可以在工业级系统中带来显著的增量收益。OpenOneRec 的开放 RL 框架使这一方向的研究不再局限于少数拥有大规模在线系统的公司。

Takeaway 5：生成式推荐的工业部署已进入多路线并存、场景驱动的阶段。 MTGR（美团，保留 DLRM 特征的生成式排序器）、PLUM（YouTube，PLM 适配的语义 ID 检索器）、OneRec（快手，完全替代级联的端到端生成器）和 OxygenREC（快手，快慢思考融合架构）代表了四条不同的工业化路线。没有”一刀切”的最优方案——技术选择取决于场景特点（内容驱动 vs 行为驱动）、工程约束（延迟要求、物品库规模）和组织能力（是否有充分的计算资源和工程团队支撑全面重构）。

跨章节综合洞察 1：生成式推荐的成功本质不是”统一建模”，而是”表示空间的重构”。 纵观第 4 章五条技术路线的演进，可以发现一个贯穿全局的深层逻辑：生成式推荐真正的突破不在于用一个模型替代多个模型（这仅是表层收益），而在于用语义 ID 将离散、无结构的物品空间重构为具有层级语义结构的可生成 token 空间（第 4.2 节），并通过自回归解码在这一结构化空间中进行”由粗到细”的搜索（第 4.4 节）。这一重构使得推荐模型首次获得了跨物品泛化的能力——模型不再需要为每个物品独立学习表示，而是通过码本共享在语义相近的物品间迁移知识。从这一视角出发，第 6 章中 CV tokenization 技术的成功迁移（VQ-VAE → TIGER）并非偶然，而是因为图像和物品共享”层级语义可分解”这一深层结构性质。同样，第 7 章提出的多模态 tokenization 和个性化 token vocabulary 方向之所以有前景，正是因为它们在这一”表示空间重构”的核心逻辑上进行了自然延伸。

跨章节综合洞察 2：学术界与工业界在生成式推荐方向上的最大分歧在于”纯生成 vs 混合增强”的路线选择。 第 3-4 章梳理的学术研究呈现出明确的”纯化”趋势——从 P5 的文本生成到 TIGER 的语义 ID 生成再到 OneRec 的端到端生成，研究方向不断追求更彻底的生成范式。然而，第 5 章的工业实践揭示了一个与学术叙事不同的现实：MTGR 明确发现”去除交叉特征的性能损失无法通过 scaling 弥补”（5.4.1 节），选择保留全部 DLRM 特征；PLUM 仅在检索阶段使用生成式方法，排序仍依赖传统模型（5.4.2 节）；即使最激进的 OneRec 也在全量部署时暴露了冷启动视频曝光下降 44.7% 的问题（5.4.3 节）。这一分歧的本质在于：学术研究追求范式的简洁性与理论完备性，工业系统追求指标的稳定性与风险可控性。第 7 章提出的持续学习（7.6 节）和安全公平性（7.8 节）方向，正是弥合这一分歧的关键——只有解决了生成式推荐在稳定性、多样性和可控性上的不足，”纯生成”路线才能在工业界获得更广泛的采用。

8.2 未来发展阶段预判

基于本综述的分析，我们对生成式推荐的未来发展做出以下阶段性预判：

近期（2026–2027）：工业标准化与效率突破。 生成式推荐将在更多公司和更多场景中部署，但技术路线的选择将更加务实和场景化。Speculative decoding、lazy decoding 等推理加速技术将使生成式推荐的延迟逼近甚至低于传统级联系统。语义 ID 的持续学习和增量更新方案将成熟，降低工业系统的维护成本。安全性和公平性保障将成为部署的必要条件。

中期（2027–2029）：基础模型整合与多模态统一。 推荐专用基础模型将与通用 LLM 形成互补生态——推荐基础模型处理行为建模和实时推荐，通用 LLM 提供推理增强和交互式推荐能力。多模态物品 tokenization 将成为标准配置，尤其在电商（视觉）和短视频（视听）场景中。Test-time compute scaling 将为不同价值的推荐请求动态分配计算资源。

远期（2029+）：推荐系统的 Agent 化。 推荐系统将从”被动响应用户请求”演化为”主动规划用户体验”的智能 Agent。推荐世界模型将支撑离线策略评估和反事实推理，大幅加速策略迭代。多 Agent 协作框架将实现用户、创作者、平台三方利益的动态均衡。生成式推荐与搜索、广告、内容创作等系统的边界将逐步消融，形成统一的信息分发智能体。

8.3 对从业者的建议

对学术研究者。（1）OpenOneRec 的开放基础模型和 RecIF-Bench 评估基准为可复现研究提供了重要基础设施，建议以此为起点开展实验，而非仅在小规模学术数据集上验证。（2）语义 ID 的设计、对齐优化的奖励函数构造、test-time compute scaling 等方向仍有大量理论和方法论空间值得探索。（3）安全性、公平性与可解释性是生成式推荐中被严重低估的研究方向，具有重要的学术和社会价值。

对工业界从业者。（1）不必追求一步到位的”完全替代级联系统”。MTGR 的经验表明，保留传统特征工程、仅用生成式架构增强序列建模能力，也能获得显著收益，且迁移风险可控。（2）语义 ID 的码本设计和版本管理是工业部署中被低估的工程挑战，建议参考 Semantic IDs Handbook [Ju et al., 2025] 和 PLUM 的 SIDv2 实践建立系统化的方法论。（3）强化学习对齐是将生成式推荐从”学术可行”推向”工业领先”的关键技术。OneRec-V2 的 GBPO 和 Duration-Aware Reward Shaping 提供了实用的工程参考。（4）持续关注推理效率优化——speculative decoding、lazy decoding、MoE 等技术是决定生成式推荐能否在更多实时场景中部署的关键因素。

参考文献

[Ainslie et al., 2023] Ainslie, J., Lee-Thorp, J., de Jong, M., Zemlyanskiy, Y., Lebrón, F., & Sanghai, S. GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. EMNLP 2023.

[Bai et al., 2022] Bai, Y., Jones, A., Ndousse, K., et al. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862, 2022.

[Belghazi et al., 2018] Belghazi, M. I., Baratin, A., Rajeswar, S., Ozair, S., Bengio, Y., Courville, A., & Hjelm, R. D. Mutual Information Neural Estimation (MINE). ICML 2018.

[Bengio et al., 2021] Bengio, E., Jain, M., Korablyov, M., Precup, D., & Bengio, Y. Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation. NeurIPS 2021.

[Bengio et al., 2023] Bengio, E., Lahlou, S., Deleu, T., Hu, E. J., Tiwari, M., & Bengio, Y. GFlowNet Foundations. JMLR 2023.

[Bismay et al., 2024] Bismay, M., Dong, X., & Caverlee, J. ReasoningRec: Bridging Personalized Recommendations and Human-Interpretable Explanations through LLM Reasoning. arXiv:2410.23180, 2024.

[Bougie et al., 2026] Bougie, N., Marconi, G. M., Ye, X., & Watanabe, N. Beyond Offline A/B Testing: Context-Aware Agent Simulation for Recommender System Evaluation (ContextSim). arXiv:2601.14651, 2026.

[Cao et al., 2024] Cao, Y., Mehta, N., Yi, X., Keshavan, R., Heldt, L., Hong, L., Chi, E. H., & Sathiamoorthy, M. Aligning Large Language Models with Recommendation Knowledge. arXiv:2404.00245, 2024.

[Chen et al., 2023] Chen, C., Borgeaud, S., Irving, G., Lespiau, J.-B., Sifre, L., & Jumper, J. Accelerating Large Language Model Decoding with Speculative Sampling. arXiv:2302.01318, 2023.

[Cheng et al., 2016] Cheng, H.-T., Koc, L., Harmsen, J., et al. Wide & Deep Learning for Recommender Systems. DLRS@RecSys 2016.

[Covington et al., 2016] Covington, P., Adams, J., & Sargin, E. Deep Neural Networks for YouTube Recommendations. RecSys 2016.

[Cui et al., 2022] Cui, Z., Ma, J., Zhou, C., Zhou, J., & Yang, H. M6-Rec: Generative Pretrained Language Models are Open-Ended Recommender Systems. arXiv:2205.08084, 2022.

[De Cao et al., 2021] De Cao, N., Izacard, G., Riedel, S., & Petroni, F. Autoregressive Entity Retrieval. ICLR 2021.

[Dutting et al., 2019] Dütting, P., Feng, Z., Narasimhan, H., Parkes, D. C., & Ravindranath, S. S. Optimal Auctions through Deep Learning. ICML 2019.

[Dwork et al., 2012] Dwork, C., Hardt, M., Pitassi, T., Reingold, O., & Zemel, R. Fairness through Awareness. ITCS 2012.

[Esser et al., 2021] Esser, P., Rombach, R., & Ommer, B. Taming Transformers for High-Resolution Image Synthesis (VQGAN). CVPR 2021.

[Gao et al., 2023] Gao, Y., Sheng, T., Xiang, Y., Xiong, Y., Wang, H., & Zhang, J. Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender System. arXiv:2303.14524, 2023.

[Geng et al., 2023] Geng, S., Liu, S., Fu, Z., Ge, Y., & Zhang, Y. Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5). RecSys 2023.

[Ghazvininejad et al., 2019] Ghazvininejad, M., Levy, O., Liu, Y., & Zettlemoyer, L. Mask-Predict: Parallel Decoding of Conditional Masked Language Models (CMLM). EMNLP 2019.

[Guo et al., 2017] Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction. IJCAI 2017.

[Guo et al., 2026] Guo, C., Cai, K., Zhou, Y., Luo, Q., Tang, R., Li, H., Gai, K., & Zhou, G. PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations. arXiv:2601.04674, 2026.

[Hafner et al., 2020] Hafner, D., Lillicrap, T., Ba, J., & Norouzi, M. Dream to Control: Learning Behaviors by Latent Imagination (Dreamer). ICLR 2020.

[Hafner et al., 2023] Hafner, D., Pasukonis, J., Ba, J., & Lillicrap, T. Mastering Diverse Domains through World Models (DreamerV3). arXiv:2301.04104, 2023.

[Han et al., 2025] Han, J., et al. MTGR: Industrial-Scale Generative Recommendation Framework in Meituan. arXiv:2505.18654, 2025.

[Hao et al., 2025] Hao, J., et al. OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation. arXiv:2512.22386, 2025.

[He et al., 2020] He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., & Wang, M. LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. SIGIR 2020.

[He et al., 2025] He, Y., et al. PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations. arXiv:2510.07784, 2025.

[Ho & Salimans, 2022] Ho, J. & Salimans, T. Classifier-Free Diffusion Guidance. arXiv:2207.12598, 2022.

[Hoffmann et al., 2022] Hoffmann, J., Borgeaud, S., Mensch, A., et al. Training Compute-Optimal Large Language Models (Chinchilla). NeurIPS 2022.

[Huang et al., 2026] Huang, H., Zhang, J., Cai, K., Wang, J., & Pan, R. Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE (RoDPO). arXiv, 2026.

[Ji et al., 2023] Ji, J., Li, Z., Xu, S., Hua, W., Ge, Y., Tan, J., & Zhang, Y. GenRec: Large Language Model for Generative Recommendation. arXiv:2307.00457, 2023.

[Ngo & Nguyen, 2024] Ngo, H. & Nguyen, D. Q. RecGPT: Generative Pre-training for Text-based Recommendation. arXiv:2405.12715, 2024.

[Ju et al., 2025] Ju, W., et al. Generative Recommendation with Semantic IDs: A Practitioner’s Handbook. arXiv:2507.22224, 2025.

[Kang & McAuley, 2018] Kang, W.-C. & McAuley, J. Self-Attentive Sequential Recommendation (SASRec). ICDM 2018.

[Kaplan et al., 2020] Kaplan, J., McCandlish, S., Henighan, T., et al. Scaling Laws for Neural Language Models. arXiv:2001.08361, 2020.

[Kirkpatrick et al., 2017] Kirkpatrick, J., Pascanu, R., Rabinowitz, N., et al. Overcoming Catastrophic Forgetting in Neural Networks (EWC). PNAS 2017.

[Tang et al., 2025a] Tang, J., Dai, S., Shi, T., Xu, J., Chen, X., Chen, W., Wu, J., & Jiang, Y. Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation. arXiv:2503.22675, 2025.

[Koren et al., 2009] Koren, Y., Bell, R., & Volinsky, C. Matrix Factorization Techniques for Recommender Systems. Computer 2009.

[Kwon et al., 2023] Kwon, W., Li, Z., Zhuang, S., et al. Efficient Memory Management for Large Language Model Serving with PagedAttention (vLLM). SOSP 2023.

[Lee et al., 2022] Lee, D., Kim, C., Kim, S., Cho, M., & Han, W.-S. Autoregressive Image Generation using Residual Quantization (RQ-VAE). CVPR 2022.

[Leviathan et al., 2023] Leviathan, Y., Kalman, M., & Matias, Y. Fast Inference from Transformers via Speculative Decoding. ICML 2023.

[Li et al., 2023] Li, J., Zhang, W., Wang, T., Xiong, G., Lu, A., & Medioni, G. GPT4Rec: A Generative Framework for Personalized Recommendation and User Interests Interpretation. arXiv:2304.03879, 2023.

[Li et al., 2023b] Li, Z., Sun, A., & Li, C. DiffuRec: A Diffusion Model for Sequential Recommendation. arXiv:2304.00686, 2023.

[Liao et al., 2023] Liao, J., Li, S., Yang, Z., et al. LLaRA: Aligning Large Language Models with Sequential Recommenders. arXiv:2312.02445, 2023.

[Lu et al., 2021] Lu, X., West, P., Zellers, R., et al. Neurologic Decoding: (Un)supervised Neural Text Generation with Predicate Logic Constraints. NAACL 2021.

[Mentzer et al., 2023] Mentzer, F., Minnen, D., Agustsson, E., & Tschannen, M. Finite Scalar Quantization: VQ-VAE Made Simple (FSQ). ICLR 2024.

[Micheli et al., 2023] Micheli, V., Alonso, E., & Fleuret, F. Transformers are Sample-Efficient World Learners (IRIS). ICLR 2023.

[Ouyang et al., 2022] Ouyang, L., Wu, J., Jiang, X., et al. Training Language Models to Follow Instructions with Human Feedback (InstructGPT/RLHF). NeurIPS 2022.

[Pan et al., 2026] Pan, J., Xue, W., Zhou, C., et al. Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation. arXiv:2604.04976, 2026.

[Patro et al., 2020] Patro, G. K., Biswas, A., Ganguly, N., Gummadi, K. P., & Chakraborty, A. FairRec: Two-Sided Fairness for Personalized Recommendations in Two-Sided Platforms. WWW 2020.

[Petrov et al., 2023] Petrov, A. & Macdonald, C. Generative Sequential Recommendation with GPTRec. Gen-IR@SIGIR 2023.

[Rafailov et al., 2023] Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO). NeurIPS 2023.

[Raffel et al., 2020] Raffel, C., Shazeer, N., Roberts, A., et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (T5). JMLR 2020.

[Rajput et al., 2023] Rajput, S., Mehta, N., Singh, A., et al. Recommender Systems with Generative Retrieval (TIGER). NeurIPS 2023.

[Ren et al., 2024] Ren, Y., Yang, Q., Wu, Y., Xu, W., Wang, Y., & Zhang, Z. Non-autoregressive Generative Models for Reranking Recommendation (NAR4Rec). KDD 2024.

[Schick et al., 2023] Schick, T., Dwivedi-Yu, J., Dessì, R., et al. Toolformer: Language Models Can Teach Themselves to Use Tools. NeurIPS 2023.

[Singh & Joachims, 2018] Singh, A. & Joachims, T. Fairness of Exposure in Rankings. KDD 2018.

[Sun et al., 2019] Sun, F., Liu, J., Wu, J., et al. BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformers. CIKM 2019.

[Tan et al., 2025] Tan, J., Chen, Y., Zhang, A., Jiang, J., Liu, B., Xu, Z., Zhu, H., Xu, J., Zheng, B., & Wang, X. ReRe: Reinforced Preference Optimization for Recommendation. arXiv:2510.12211, 2025.

[Tang et al., 2026] Tang, J., Chen, X., Chen, W., Wu, J., Jiang, Y., & Zheng, B. Parallel Latent Reasoning for Sequential Recommendation (PLR). arXiv, 2026.

[Tay et al., 2022] Tay, Y., Tran, V., Dehghani, M., et al. Transformer Memory as a Differentiable Search Index (DSI). NeurIPS 2022.

[van den Oord et al., 2017] van den Oord, A., Vinyals, O., & Kavukcuoglu, K. Neural Discrete Representation Learning (VQ-VAE). NeurIPS 2017.

[Wang et al., 2023b] Wang, W., Xu, Y., Feng, F., Lin, X., He, X., & Chua, T.-S. Diffusion Recommender Model (DiffRec). SIGIR 2023.

[Wang et al., 2025] Wang, Y., Zhou, S., Lu, J., Liu, Q., Li, X., Zhang, W., Li, F., Wang, P., Xu, J., Zheng, B., & Zhao, X. GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks. arXiv:2506.16114, 2025.

[Wang et al., 2025d] Wang, S., Wei, X., Kou, S., Wang, C., Chen, W., Tang, Q., Zhu, Y., Xiao, X., & Wang, X. NLGR: Utilizing Neighbor Lists for Generative Rerank in Personalized Recommendation Systems. WWW 2025 Industry Track. arXiv:2502.06097.

[Wei et al., 2022] Wei, J., Wang, X., Schuurmans, D., et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.

[Xue et al., 2026] Xue, F., et al. Generative Recommendation for Large-Scale Advertising. arXiv, 2026.

[Yang et al., 2023] Yang, Z., Wu, J., Wang, Z., Wang, X., Yuan, Y., & He, X. Generate What You Prefer: Reshaping Sequential Recommendation via Guided Diffusion. NeurIPS 2023.

[Yang et al., 2025] Yang, Y., Ji, Z., Li, Z., Li, Y., Mo, Z., Ding, Y., Chen, K., Zhang, Z., Li, J., Li, S., & Liu, L. Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations. arXiv:2503.02453, 2025.

[Yang et al., 2026] Yang, K., Zhu, Y., Chen, Y., Zheng, S., Hong, B., Wu, K., Ni, Y., Zeng, A., Fu, C., & Li, H. ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation. arXiv:2602.20093, 2026.

[Yao et al., 2023] Yao, S., Zhao, J., Yu, D., et al. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.

[Ying et al., 2018] Ying, R., He, R., Chen, K., Eksombatchai, P., Hamilton, W. L., & Leskovec, J. Graph Convolutional Neural Networks for Web-Scale Recommender Systems (PinSage). KDD 2018.

[Yu et al., 2024] Yu, L., Lezama, J., Gundavarapu, N. B., et al. Language Model Beats Diffusion — Tokenizer is Key to Visual Generation (MAGVIT-v2). ICLR 2024.

[Zhai et al., 2024] Zhai, J., Liao, L., Liu, X., et al. Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations (HSTU). ICML 2024.

[Zheng et al., 2023] Zheng, B., et al. LC-Rec: Language and Collaborative Semantics for Generative Recommendation. ICDE 2024.

[Zheng et al., 2025] Zheng, B., et al. Beyond Cascaded Architectures: End-to-End Generative Recommendation for Advertising. arXiv, 2025.

[Zhou et al., 2025] Zhou, G., et al. OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment. arXiv:2502.18965, 2025. (含 OneRec-V2: Scaling Lazy Decoder-Only Generative Recommender, arXiv:2506.13695)

[Zhou et al., 2026] Zhou, G., et al. OpenOneRec Technical Report. arXiv:2512.24762, 2026.

以下论文在正文中按系统/方法名称提及：

[Lin et al., 2025] Lin, X., Yang, C., Wang, W., Li, Y., Du, C., Feng, F., Ng, S.-K., & Chua, T.-S. Efficient Inference for Large Language Model-based Generative Recommendation (AtSpeed). ICLR 2025. arXiv:2410.05165.

[Xi et al., 2025] Xi, Y., Wang, H., Chen, B., Lin, J., Zhu, M., Liu, W., Tang, R., Wei, Z., Zhang, W., & Yu, Y. Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding (LASER). SIGIR 2025. arXiv:2408.05676.

[Wang et al., 2025c] Wang, Y., Zhou, S., Lu, J., Liu, Z., Liu, L., Wang, M., Zhang, W., Li, F., Su, W., Wang, P., Xu, J., & Zhao, X. NEZHA: A Zero-sacrifice and Hyperspeed Decoding Architecture for Generative Recommendations. arXiv:2511.18793, 2025. (部署于淘宝广告系统)

[Chen et al., 2026] Chen, J., Gao, C., Fan, C., Liu, H., Cai, Q., Jiang, P., & He, X. Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation (PAD-Rec). arXiv:2604.27747, 2026.

[Liu et al., 2026] Liu, Z., Luo, L., Li, Q., Zhang, Z., Ling, W., Shen, J., Chen, Z., et al. SOLARIS: Speculative Offloading of Latent-bAsed Representation for Inference Scaling. SIGIR 2026 Industry Track. arXiv:2604.12110.

[Zhang et al., 2021] Zhang, S., Yao, D., Zhao, Z., Chua, T.-S., & Wu, F. CauseRec: Counterfactual User Sequence Synthesis for Sequential Recommendation. SIGIR 2021.

[Zhang et al., 2024] Zhang, A., Chen, Y., Sheng, L., Wang, X., & Chua, T.-S. On Generative Agents in Recommendation (Agent4Rec). SIGIR 2024. arXiv:2310.10108.

[Liao et al., 2026] Liao, Y., Wu, L., Hou, M., Wang, Y., Wu, H., & Wang, M. From Atom to Community: Structured and Evolving Agent Memory for User Behavior Modeling (STEAM). arXiv:2601.16872, 2026.

[Ye et al., 2025] Ye, X., Xu, C., Sun, Z., Xu, J., Wang, G., Dong, Z., & Wen, J.-R. CreAgent: Towards Long-Term Evaluation of Recommender System under Platform-Creator Information Asymmetry. arXiv:2502.07307, 2025.

[Li et al., 2024] Li, C., Deng, Y., Hu, H., Kan, M.-Y., & Li, H. Incorporating External Knowledge and Goal Guidance for LLM-based Conversational Recommender Systems (ChatCRS). arXiv:2405.01868, 2024.

[Wang et al., 2025b] Wang, Q., Wang, D., Chen, K., et al. AdaptJobRec: Enhancing Conversational Career Recommendation through an LLM-Powered Agentic System. arXiv:2508.13423, 2025.

[Zhong et al., 2025] Zhong, H., Wang, H., Ye, Y., Zhang, M., & Zhu, S. GGBond: Growing Graph-Based AI-Agent Society for Socially-Aware Recommender Simulation. arXiv:2505.21154, 2025.

[Cai et al., 2024] Cai, S., Zhang, J., Bao, K., Gao, C., Wang, Q., Feng, F., & He, X. Agentic Feedback Loop Modeling Improves Recommendation and User Simulation. arXiv:2410.20027, 2024.

[Zhang et al., 2026] Zhang, B., Zhang, Q., Cheng, J., et al. Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation. arXiv:2602.07298, 2026.

[Huang et al., 2025] Huang, L., Guo, H., Peng, L., Zhang, L., Wang, X., Wang, D., Wang, S., Wang, J., Wang, L., & Chen, S. SessionRec: Next Session Prediction Paradigm For Generative Sequential Recommendation. arXiv:2502.10157, 2025.

[Li et al., 2025] Li, D., Course, K., Li, W., et al. Realizing Scaling Laws in Recommender Systems: A Foundation-Expert Paradigm for Hyperscale Model Deployment. arXiv:2508.02929, 2025.

[Dong et al., 2025] Dong, Y., Li, H., Li, S., Patel, N., Liu, X., Wang, X., & Zhuge, C. Scaling Generative Recommendations with Context Parallelism on Hierarchical Sequential Transducers. arXiv:2508.04711, 2025.

[Liu et al., 2025] Liu, J., Collins, L., Tang, J., Zhao, T., Shah, N., & Ju, C. M. Understanding Generative Recommendation with Semantic IDs from a Model-scaling View. arXiv:2509.25522, 2025.

目录

第 1 章 引言

1.1 传统推荐系统的结构性局限

1.2 生成式范式的核心优势

1.3 发展简史（2022–2026）

1.4 本综述的结构与贡献

第 2 章 背景与问题定义

2.1 推荐系统范式的形式化演进

2.2 级联架构的形式化描述

2.3 生成式推荐的统一问题定义

2.4 与生成式检索（Generative Retrieval for IR）的关系与区别

第 3 章 技术演进脉络

3.1 范式提出与初步验证（2022）

3.2 统一范式的快速扩展与生成建模探索（2023）

3.3 行为序列优先与计算 Scaling Law（2024）

3.4 工业部署爆发与系统优化（2025）

3.5 开放生态与基础模型建设（2026）

3.6 小结：四年演进的核心脉络

第 4 章 核心技术分类

4.1 将推荐统一为文本/序列生成

4.1.1 问题定义与技术动机

4.1.2 M6-Rec：开放式文本生成推荐的先驱

4.1.3 P5：Pretrain-Prompt-Predict 统一框架

4.1.4 GenRec：LLM 直接生成物品标识符

4.1.5 GPTRec：GPT 风格的下一物品生成

4.1.6 GPT4Rec：个性化推荐与兴趣解释的融合

4.1.7 对比分析与技术路线总结

4.2 物品表示与语义 ID 设计

4.2.1 问题定义与技术动机

4.2.2 TIGER：语义 ID 生成式检索的奠基工作

4.2.3 LC-Rec：语义空间与协同信号的对齐

4.2.4 Semantic IDs Handbook：设计与部署实践方法论

4.2.5 Sparse Meets Dense：稀疏-稠密统一表征

4.2.6 Tokenization 方法的系统对比

4.3 基于 LLM 的自回归推荐

4.3.1 问题定义与技术动机

4.3.2 Chat-REC：提示工程与交互式推荐

4.3.3 LLaRA：序列推荐器与 LLM 表示对齐

4.3.4 ReasoningRec：LLM 推理与可解释推荐

4.3.5 Think before Recommendation：推荐前显式多步推理

4.3.6 RecGPT：GPT 风格推荐基础框架

4.3.7 对比分析：三条知识注入路径

4.3.8 小结与未解决问题

4.4 检索与排序的统一

4.4.1 问题定义与技术动机

4.4.2 Actions Speak Louder than Words：万亿参数 HSTU 架构

4.4.3 OneRec：端到端生成推荐与强化学习

4.4.4 OneRec-V2：Lazy Decoder-Only 提升效率

4.4.5 MTGR：美团工业级生成式推荐

4.4.6 PLUM：YouTube 预训练语言模型适配

4.4.7 OxygenREC：快慢思考推荐

4.4.8 Beyond Cascaded Architectures：广告场景的端到端生成

4.4.9 对比分析与方法总结

4.4.10 小结与未解决问题

4.5 对齐优化与强化学习

4.5.1 问题定义与技术动机

4.5.2 GFlowGR：GFlowNet 序列级奖励优化

4.5.3 OneRec 与 OpenOneRec 的 RL 实践

4.5.4 Aligning LLMs with Recommendation Knowledge

4.5.5 对比分析与方法总结

4.5.6 小结与未解决问题

4.6 基于扩散模型的推荐（Diffusion-based Recommendation）

4.6.1 技术动机与背景

4.6.2 DiffRec：扩散模型用于协同过滤推荐

4.6.3 DiffuRec：扩散模型用于序列推荐

4.6.4 DreamRec：从”学习分类”到”学习生成”的范式转换

4.6.5 与自回归生成式推荐的对比分析

4.7 非自回归生成式推荐（Non-Autoregressive Generative Recommendation）

4.7.1 技术动机

4.7.2 NAR4Rec：非自回归生成式重排序

4.7.3 NLGR：基于邻居列表的非自回归生成式重排序

4.7.4 NAR vs AR：推荐中的权衡分析

第 5 章 工业部署实践

5.1 延迟与吞吐优化

5.1.1 自回归解码的延迟瓶颈

5.1.2 Lazy Decoding：计算重分配策略

5.1.3 用户级压缩与子线性推理

5.1.4 Batch Serving 与硬件优化

5.2 超大规模物品空间处理

5.2.1 从 ANN 到生成式检索

第 1 章引言

第 2 章背景与问题定义

第 3 章技术演进脉络

第 4 章核心技术分类

第 5 章工业部署实践

第 6 章跨领域技术借鉴

第 7 章开放问题与未来方向