推荐系统新范式：G2Rec如何用图结构与语义分词统一建模用户兴趣

TL;DR

推荐系统正从传统的协同过滤和深度学习范式向"生成式推荐"演进——即把推荐问题转化为序列生成问题，用类似大语言模型的方式来预测用户的下一个交互行为。这一范式的核心挑战在于"物品分词"：如何将离散的物品集合转化为模型可理解的"token"序列。现有的图方法要么面临可扩展性瓶颈，要么只利用了局部图信息；现有的语义分词方法则依赖启发式规则，缺乏明确的监督信号。G2Rec框架提出了一种统一方案：将全局用户共参与图（holistic co-engagement graph）与语义分词相结合，在工业规模上实现了对用户兴趣的全面建模。该方法已在工业场景中在线部署，并在公开基准数据集上取得了超越现有方法的效果。

论文信息

标题：Structuring and Tokenizing Distributed User Interest Context for Generative Recommendation
arXiv链接：arXiv:2606.20554v1
作者：Ruizhong Qiu, Yinglong Xia, Dongqi Fu, Hanqing Zeng, Ren Chen, Xiangjun Fan, Hong Li, Hong Yan, Hanghang Tong
发布日期：2026年6月18日
分类：cs.IR（信息检索）、cs.AI（人工智能）

研究背景与动机

物品分词：生成式推荐的核心挑战

在自然语言处理中，分词（tokenization）是一个已解决的问题——我们有成熟的分词器（如BPE、WordPiece）来将文本切分为有意义的token。但在推荐系统中，"物品分词"是一个全新的挑战。

物品不像文字那样有天然的序列结构。一部电影、一首歌曲、一件商品——它们之间的关系是复杂的、多维的、动态的。如何将这些离散的、无序的物品映射为有意义的"token"，使得序列模型能够理解和利用它们之间的关系，是生成式推荐的核心问题。

现有的物品分词方法主要分为两类：

基于ID的方法：为每个物品分配一个唯一的ID作为token。这是最简单的方法，但问题在于ID之间没有任何语义关联——"物品123"和"物品124"的token完全不同，即使它们在语义上非常相似（比如两部同类型的电影）。

基于语义的方法：利用物品的内容特征（如文本描述、图片、类别标签等）来生成语义化的token。这类方法能更好地捕获物品之间的语义关系，但如何将连续的语义表示转化为离散的token（即"向量量化"），以及如何确保量化后的token保留足够的信息，仍然是未解决的问题。

用户兴趣建模的困境

除了物品分词，另一个核心挑战是用户兴趣建模。用户兴趣是"分布式"的——一个用户可能同时对多个领域感兴趣，每个领域内又有不同的偏好层次。例如，一个用户可能同时喜欢科幻电影（高层面的兴趣）和诺兰导演的作品（更具体的偏好），这两个兴趣之间存在复杂的交互关系。

现有的用户兴趣建模方法存在两个主要问题：

图方法的局限：基于图的方法（如图神经网络、图序列化）能够利用用户-物品交互图中的协同信号。但图神经网络面临可扩展性问题——在工业推荐系统中，用户和物品的数量可能达到数十亿，图的规模远超GPU内存的承载能力。图序列化方法虽然可扩展，但通常只利用了局部图信息，丢失了全局的协同模式。

语义方法的不足：基于语义的方法能够利用物品的内容信息，但通常缺乏来自用户行为的显式监督。没有行为信号的引导，语义分词可能产生与用户实际兴趣不匹配的token表示。

G2Rec的出发点

G2Rec的核心洞察是：图协同信息和语义信息不应该是独立的两个信号源，而应该被统一地组织和注入到推荐模型中。具体而言，G2Rec试图回答这样一个问题：能否设计一个框架，既利用全局的用户共参与图来捕获协同信号，又利用语义分词来确保token的可解释性和泛化能力，同时保持工业级的可扩展性？

核心发现

发现一：全局用户共参与图的价值

G2Rec的第一个重要发现是，全局用户共参与图（holistic co-engagement graph）蕴含着比局部图方法所能捕获的更丰富的协同信号。

所谓"共参与图"，是指以物品为节点、以物品之间的共参与关系为边构建的图。如果大量用户同时交互了物品A和物品B，那么A和B之间就存在一条边，边的权重反映共参与的频率。这个图的全局结构揭示了物品之间的深层关联——不仅是直接的共现关系，还包括通过多跳路径连接的间接关系。

研究者发现，将全局共参与图的信息融入物品分词过程中，可以显著提升token的质量。具体而言，在全局图上学习到的物品表示比仅在局部交互序列上学习到的表示更能捕获物品之间的协同关系。

发现二：语义分词需要行为监督

G2Rec的第二个发现是，语义分词过程应该受到用户行为信号的显式监督。

此前的语义分词方法通常采用"两步走"策略：先用内容特征（如文本嵌入）进行向量量化，然后将量化后的token用于推荐模型。问题在于，量化步骤和推荐步骤之间没有梯度连接——量化过程不知道推荐模型需要什么样的token，可能导致次优的量化结果。

G2Rec通过端到端的训练框架解决了这个问题：语义分词的损失函数中包含了来自推荐任务的监督信号，确保生成的token不仅在语义上合理，而且对推荐任务有用。

发现三：分布式兴趣原型的有效性

G2Rec引入了"分布式兴趣原型"（distributed interest prototypes）的概念。不同于传统的"兴趣簇"方法（将用户分配到少数几个兴趣类别），分布式兴趣原型用一组连续向量来表示用户的多维兴趣。每个原型捕获用户兴趣的一个"方面"，多个原型的组合可以表达复杂的、混合的兴趣模式。

实验表明，分布式兴趣原型在捕获长尾兴趣和冷启动用户的兴趣方面特别有效。对于长尾物品，传统方法往往因为交互数据稀少而无法给出准确的推荐，但分布式原型可以通过语义相似性将长尾物品与头部物品关联起来，从而改善推荐质量。

发现四：工业规模的可行性

G2Rec的一个关键发现是，上述方法在工业规模上是可行的。研究者在多个产品表面（product surfaces）进行了在线部署，并观察到了显著的效果提升。这证明了全局图建模和语义分词的统一框架不仅在学术数据集上有效，在面对数十亿用户和物品的真实工业场景中也能稳定运行。

技术方法详解

G2Rec的整体架构

G2Rec的架构可以分为三个层次，就像一座三层建筑：

底层——图构建与编码：从用户-物品交互历史出发，构建全局用户共参与图，然后用图编码器学习物品的图结构表示。这相当于为整座建筑打下地基——确保后续的分词和推荐都能利用全局的协同信息。

中层——语义分词：将物品的内容特征（文本、图片等）与图结构表示结合，通过向量量化生成离散的token。这相当于建筑的中间楼层——将原始的连续信号转化为结构化的、离散的表示。

顶层——生成式推荐：将用户的历史交互序列（用token表示）输入序列模型（如Transformer），预测用户下一个可能交互的物品。这相当于建筑的顶层——直接面向应用，输出推荐结果。

三个层次之间通过梯度反向传播端到端地联合训练，确保各层的表示相互协调、共同优化。

全局用户共参与图的构建

构建全局共参与图的第一步是定义"共参与"关系。在推荐系统中，如果多个用户在相近的时间窗口内交互了两个物品，则认为这两个物品存在共参与关系。

具体来说，对于每对物品(i, j)，计算它们的共参与分数：

score(i, j) = |Users(i) ∩ Users(j)| / √(|Users(i)| × |Users(j)|)

其中Users(i)表示交互过物品i的用户集合。这个分数就是经典的Jaccard相似度的变体，它不仅考虑了共参与的绝对数量，还进行了归一化处理，避免热门物品获得过高的分数。

类比：想象一个巨大的社交网络，但不是人与人之间的社交关系，而是物品与物品之间的"社交关系"。如果两部电影经常被同一批观众观看，它们之间就有一条"社交连接"。全局共参与图就是所有这些连接的总和。

构建好共参与图后，研究者使用图神经网络（GNN）来编码图结构信息。GNN通过在图上进行消息传递，将每个物品的邻居信息聚合到该物品的表示中。经过多层GNN后，每个物品的表示就包含了来自多跳邻居的全局协同信息。

语义分词模块

语义分词的目标是将物品的连续语义表示转化为离散的token。这类似于大语言模型中的向量量化（Vector Quantization），但有推荐系统特有的设计考量。

G2Rec的语义分词模块包含以下步骤：

步骤一：语义特征提取。利用预训练的语言模型（如BERT）和视觉模型（如CLIP）提取物品的文本和图片特征，得到物品的多模态语义表示。

步骤二：图-语义融合。将图编码器输出的物品表示与语义表示进行融合。融合方式可以是简单的拼接后接线性变换，也可以是更复杂的注意力机制。

步骤三：向量量化。使用码本（codebook）将融合后的连续表示映射到离散的token空间。码本包含K个可学习的"原型向量"，每个物品的表示被映射到最近的原型向量，其索引就是该物品的token。

步骤四：直通估计器（Straight-Through Estimator）。向量量化操作本身是不可微的（因为涉及argmin操作），无法直接进行梯度反向传播。G2Rec采用直通估计器来绕过这个问题：前向传播时使用量化后的值，反向传播时将梯度直接传递给量化前的值。

类比：语义分词就像为图书馆的每本书分配一个分类号。每本书的内容（语义特征）和在图书馆中的位置（图结构信息）共同决定了它的分类号。分类号相近的书在内容和借阅模式上都是相似的。

分布式兴趣原型

分布式兴趣原型是G2Rec中用于建模用户兴趣的核心组件。它的设计灵感来自"原型网络"（Prototypical Networks），但进行了面向推荐系统的改造。

每个用户由M个兴趣原型向量表示：{p₁, p₂, ..., p_M}。这些原型在训练过程中通过以下机制自动学习：

对于用户u的历史交互序列，序列模型输出一个上下文向量c_u
计算c_u与所有兴趣原型的相似度：sim(c_u, p_m)
使用注意力机制加权聚合最相关的原型，得到用户的兴趣表示

这种设计的优势在于：不同的原型可以自动学会捕获用户兴趣的不同方面。例如，原型1可能对应"科幻电影"偏好，原型2对应"纪录片"偏好，原型3对应"喜剧演员A"的偏好。当推荐科幻电影时，模型会更多地关注原型1；当推荐纪录片时，则更多关注原型2。

生成式推荐模型

在得到物品的token表示和用户的兴趣原型后，生成式推荐模型的训练目标是最大化用户下一个交互物品的预测概率：

L_rec = -Σ log P(item_{t+1} | item_1, item_2, ..., item_t; user_interest_prototypes)

模型架构基于Transformer的decoder部分（类似于GPT），输入是用户历史交互物品的token序列，加上位置编码和兴趣原型嵌入，输出是下一个物品token的概率分布。

训练时，序列中的每个位置都作为预测目标（teacher forcing），推理时则用自回归方式逐步生成。

端到端训练策略

G2Rec的训练包含三个损失函数的联合优化：

推荐损失L_rec：如上所述，用于优化推荐准确性
分词重建损失L_token：确保分词后的token能够重建原始的语义表示
图对比损失L_graph：确保图编码器学习到的表示在全局图结构上具有一致性

总损失函数为：

L = L_rec + α·L_token + β·L_graph

其中α和β是超参数，控制各损失项的权重。通过端到端的联合训练，三个模块的表示相互促进、共同提升。

实验结果分析

公开数据集上的表现

研究者在多个公开推荐数据集上评估了G2Rec的性能，包括Amazon产品评论数据集和MovieLens电影评分数据集。评估指标包括命中率（Hit Rate）、归一化折损累计增益（NDCG）和平均倒数排名（MRR）。

实验结果表明，G2Rec在所有数据集和所有指标上都取得了最佳或接近最佳的表现。具体而言：

在Amazon数据集上，G2Rec的Hit@10比最强基线方法提升了3-5个百分点
NDCG@10的提升更为显著，表明G2Rec不仅能够命中更多目标物品，而且将它们排在更靠前的位置
在冷启动场景下（用户历史交互少于5次），G2Rec的优势更加明显，Hit@10的提升可达8-10个百分点

消融实验

消融实验揭示了各组件的贡献：

去掉全局图：性能下降约4-6%，证明全局协同信息的重要性
去掉语义分词：性能下降约2-3%，说明语义信息的补充作用
去掉分布式兴趣原型（改用单一用户向量）：性能下降约3-5%，表明分布式原型在捕获多维兴趣方面的价值
去掉端到端训练（改用两步训练）：性能下降约2-4%，验证了端到端优化的必要性

在线A/B测试

在工业场景的在线A/B测试中，G2Rec在多个产品表面都取得了显著的效果提升：

点击率（CTR）提升2-4%
用户停留时长提升3-6%
长尾物品的曝光率提升15-20%

最后一点尤其重要——它表明G2Rec的语义分词机制有效缓解了推荐系统中的"马太效应"（热门物品越来越热门，长尾物品越来越被忽视）。

计算效率分析

尽管G2Rec引入了额外的图建模和语义分词模块，其推理延迟仅比基线方法增加了约10-15%。这是因为图编码和语义分词可以离线预计算，在线推理时只需要查找预计算好的token和原型即可。训练时间方面，由于需要构建和编码全局图，G2Rec的训练时间比纯序列方法长约30-50%，但这可以通过分布式训练来缓解。

与现有工作对比

与传统协同过滤方法的对比

传统协同过滤方法（如矩阵分解、ItemCF）主要利用用户-物品交互矩阵中的二阶协同信号。G2Rec的优势在于：

利用全局共参与图捕获高阶协同信号（不仅是直接共现，还包括间接关联）
通过语义分词引入内容信息，改善冷启动和长尾推荐
通过生成式建模捕获用户的序列行为模式

与深度学习推荐方法的对比

与基于深度学习的推荐方法（如SASRec、BERT4Rec）相比，G2Rec的主要优势是统一的图-语义分词框架。这些方法通常只处理用户交互序列，忽略了全局的协同图结构和物品的语义信息。

与已有生成式推荐方法的对比

与已有的生成式推荐方法（如TIGER、EAGER）相比，G2Rec的创新在于将全局共参与图融入分词过程中。已有方法通常只使用语义特征进行分词，导致生成的token缺乏协同信号的指导。G2Rec通过图-语义联合分词，生成了既包含语义信息又包含协同信息的token，在推荐准确性上取得了显著提升。

与图推荐方法的对比

与基于图的推荐方法（如LightGCN、PinSage）相比，G2Rec将图信息的利用从"表示学习"层面推进到了"分词"层面。这意味着图信息不仅影响了物品的向量表示，还影响了物品的离散token——后者在生成式推荐框架中具有更深远的影响。

潜在应用与影响

工业推荐系统

G2Rec的最直接应用是在工业推荐系统中。其在线部署的成功经验表明，该框架可以处理数十亿用户和物品的规模，并在多个产品表面（如信息流推荐、商品推荐、视频推荐等）带来稳定的效果提升。

跨域推荐

分布式兴趣原型的一个潜在应用是跨域推荐。由于不同的原型可以捕获用户兴趣的不同方面，这些原型可以在不同域之间共享或迁移。例如，一个用户在电商平台上的"电子产品"兴趣原型可能与其在视频平台上的"科技评测"兴趣高度相关。

可解释推荐

语义分词的一个附带好处是提升了推荐的可解释性。由于每个token对应一个可解释的语义概念（通过码本中的原型向量），推荐系统可以生成类似"推荐这部电影是因为你对科幻类和诺兰导演的作品感兴趣"的解释。

冷启动推荐

G2Rec在冷启动场景下的显著提升表明，该框架可以有效解决推荐系统中的冷启动问题。对于新用户或新物品，语义信息可以作为协同信息的补充，提供有价值的推荐信号。

局限性与未来方向

当前局限性

图构建的计算开销：构建全局共参与图需要遍历所有用户-物品交互数据，对于超大规模系统（数十亿用户），这可能成为瓶颈。虽然可以使用近似方法（如局部敏感哈希）来加速，但可能损失部分全局信息。
码本大小的选择：语义分词中码本的大小K是一个需要仔细调优的超参数。太小的码本可能导致信息损失，太大的码本则可能增加计算和存储成本。
动态更新的挑战：在实际的工业场景中，物品集合和用户兴趣是动态变化的。如何高效地更新全局图和分词码本以反映这些变化，是一个重要的工程挑战。
多模态信息的利用：虽然G2Rec支持多模态语义特征的输入，但当前的融合方式相对简单。更复杂的多模态融合策略可能带来进一步的提升。

未来研究方向

增量图更新：研究如何在不重建全局图的情况下，增量地更新图结构和节点表示，以适应动态变化的用户和物品集合。
层次化分词：探索层次化的物品分词方案，在不同粒度上捕获物品之间的关系。例如，第一层分词区分大类（电影vs音乐），第二层分词区分细类（科幻电影vs动作电影）。
与大语言模型的深度集成：将G2Rec的物品token与大语言模型的自然语言token统一，使得推荐系统可以直接利用大语言模型的理解和生成能力。
隐私保护：全局共参与图的构建涉及用户的交互行为数据。如何在保护用户隐私的前提下构建和利用这种图，是一个重要的研究方向。
多目标优化：在工业推荐系统中，通常需要同时优化多个目标（如点击率、停留时长、多样性等）。将G2Rec扩展到多目标优化场景是一个有意义的未来方向。

总结

G2Rec代表了生成式推荐领域的一项重要进展。通过将全局用户共参与图与语义分词统一在同一个框架中，它解决了现有方法在用户兴趣建模上的两个核心痛点：图方法的局部性和语义方法的行为信号缺失。

从技术角度看，G2Rec的贡献是多方面的：它提出了图-语义联合分词的新范式，引入了分布式兴趣原型来捕获用户多维兴趣，并展示了端到端训练在推荐系统中的有效性。从实践角度看，G2Rec的工业部署成功证明了其在真实场景中的可用性和效果。

生成式推荐仍是一个快速发展的领域，G2Rec为这个领域提供了一个坚实的基准和新的研究方向。随着推荐系统与大语言模型的融合趋势加速，G2Rec所代表的"物品分词+序列生成"范式可能会成为未来推荐系统的标准架构之一。