返回首页

G2Rec:当生成式推荐遇上图网络与语义分词——大规模推荐系统的范式革新

G2Rec:当生成式推荐遇上图网络与语义分词——大规模推荐系统的范式革新

TL;DR

生成式推荐正在成为工业推荐系统的新范式,但如何同时处理复杂的用户行为上下文和物品语义信息一直是个难题。G2Rec框架提出了一个可扩展的解决方案:将全局图建模的用户共参与模式与语义分词统一起来。它不需要真实的用户兴趣标签,就能捕获全局且语义可解释的用户兴趣原型。在公开数据集和线上产品部署中,G2Rec均超越了现有方法,证明了图结构信息与语义token化结合的有效性。


论文信息

  • 标题:Structuring and Tokenizing User Interest for Generative Recommendation
  • 作者:Ruizhong Qiu, Yinglong Xia, Dongqi Fu, Hanqing Zeng, Ren Chen, Xiangjun Fan, Hong Li, Hong Yan, Hanghang Tong
  • 分类:cs.IR, cs.
  • 日期:2026年6月18日
  • 链接https://arxiv.org/abs/2606.20554v1

研究背景与动机

推荐系统的三代进化

推荐系统的历史可以追溯到上世纪90年代的协同过滤。那个时代的推荐逻辑很简单:喜欢A的人也喜欢B,所以给喜欢A的人推荐B。这种"用户-物品"矩阵分解的方法虽然直观,但有一个致命的局限——它只看到了用户和物品之间的直接关系,无法理解用户兴趣的深层结构。

第二代推荐系统引入了深度学习。从Wide & Deep到DIN(Deep Interest Network),再到DIEN(Deep Interest Network),深度学习让推荐模型能够捕捉更复杂的用户行为模式。但这些方法本质上还是在做"匹配"——给定用户的历史行为序列,预测下一个可能交互的物品。

2024年以来,一种全新的范式开始崭露头角:生成式推荐。这个思路的大胆之处在于——把推荐问题重新定义为序列生成问题。就像预测下一个token一样,生成式推荐模型预测用户的下一个交互物品。物品不再是被动的候选对象,而是需要被"生成"的输出。

这个范式转换的核心支柱是物品分词(Item Tokenization)。就像语言模型需要把文本切分成token一样,生成式推荐需要把物品转换成离散的token序列。分词的质量直接决定了推荐模型的上限——如果token不能准确捕捉物品的语义,模型就无法做出精准预测。

两个棘手的问题

然而,要让生成式推荐在工业场景中真正落地,还有两个关键问题没有解决。

问题一:图结构信息的利用不足。 用户的行为数据天然形成一个巨大的二部图——用户和物品之间的交互关系构成了图的边。现有的图处理方法要么将图序列化(丢失了全局拓扑信息),要么使用图神经网络(只利用了局部邻域信息,且难以扩展到工业级数据量)。想象一下,你有一个包含10亿用户和1亿物品的交互图——这个图的边可能有数百亿条。把这么大的图序列化成文本输入给模型?不现实。用GNN在这个图上跑消息传递?计算量也是天文数字。

问题二:语义分词缺乏监督信号。 现有的语义分词方法通常依赖启发式策略——比如用文本描述的相似度来聚类物品,或者用预训练的嵌入向量做量化。但这些方法没有明确的监督信号告诉分词器"什么样的token对推荐最有用"。这就像让一个翻译员自学分词——他可能会按照语法来切分句子,但如果目标是做情感分析,可能按照情感词汇来切分更有效。

G2Rec的破局思路

G2Rec的核心洞察是:用户共参与模式本身就是一种隐式的监督信号

什么叫"用户共参与"?如果大量用户同时购买了物品A和物品B,说明A和B在某种意义上是"相似的"——它们可能属于同一品类、满足同一需求、或者适合同一用户群体。这种共参与模式遍布整个用户-物品交互图,形成了一种全局的、隐式的物品关系网络。

G2Rec的天才之处在于:它不直接把这些共参与关系当作监督信号来训练分词器,而是先把它们编码成一个图结构的上下文表示,再通过一个精心设计的训练目标,让分词器在这个上下文的引导下学习。这样做的好处是:分词器既能利用全局的共参与信息,又不需要显式的"兴趣标签"——兴趣原型是从数据中自动涌现的。


核心发现

发现一:图上下文比序列上下文更有效

研究者系统地比较了三种用户上下文建模方式:纯序列(只看用户的历史交互序列)、局部图(用GNN聚合用户的邻居信息)、全局图(用G2Rec的图编码方式捕获全局共参与模式)。

结果令人印象深刻:全局图上下文在所有测试场景中都表现最佳。在 Review数据集上,G2Rec的Recall@10比纯序列方法高出8-15%,比局部图方法高出3-7%。

这个差距来自信息的广度。纯序列方法只能看到用户自己的历史行为,局部图方法能扩展到用户的"邻居",而全局图方法能看到整个交互图中隐含的物品关系结构。

发现二:语义分词的质量可以通过共参与信号显著提升

G2Rec的分词器不仅考虑物品的语义属性(如文本描述、类别标签),还融入了从共参与图中提取的结构信息。这让分词结果既有语义可解释性,又有行为区分力。

一个具体的例子:在电影推荐场景中,传统的语义分词可能会把《盗梦空间》和《星际空间》分到同一个token——因为它们都是"科幻片"。但G2Rec的分词器可能把它们分到不同的token——因为看过《盗梦空间》的用户群体和看过《星际空间》的用户群体有微妙的差异(前者可能更偏好烧脑叙事,后者可能更偏好视觉奇观)。这种精细的区分对推荐质量至关重要。

发现三:无需真实兴趣标签即可学习兴趣原型

G2Rec最优雅的特性之一是:它不需要人工标注的"用户兴趣"。传统的兴趣建模方法通常需要把用户分配到预定义的兴趣类别中(如"科技爱好者""美食达人"),但这种分类既昂贵又主观。

G2Rec通过共参与图的结构信息自动学习兴趣原型。这些原型是从数据中涌现出来的,每个原型对应一组高度共参与的物品集合。研究者发现,这些自动学习到的兴趣原型与人工定义的兴趣类别有很高的重合度,但粒度更细、覆盖面更广。

发现四:线上部署验证了规模化可行性

G2Rec不仅在公开数据集上表现优异,还在实际的产品线中完成了线上部署。这证明了框架的可扩展性——它能处理工业级的数据量和实时推理要求。

线上A/B测试显示,G2Rec相比之前的推荐系统,在关键指标(点击率、转化率、用户停留时间)上均有显著提升。


技术方法详解

整体架构:三层蛋糕

G2Rec的架构可以比喻为一个三层蛋糕:

底层:全局共参与图编码。 这是蛋糕的基础层。G2Rec首先从用户的交互历史中构建一个物品-物品的共参与图——如果两个物品被大量共同用户交互过,它们之间就有一条边。然后,用一种高效的图编码方法(不是传统的GNN消息传递,而是一种可扩展的图嵌入技术)来提取每个物品在全局图中的位置信息。

中层:语义分词器。 这是蛋糕的核心层。分词器接收物品的语义特征(文本描述、类别等)和底层的图结构信息,输出一组离散的token。分词器的训练目标是:让同一兴趣原型下的物品共享相似的token模式,同时让不同兴趣原型的物品有不同的token。

顶层:生成式推荐模型。 这是蛋糕的装饰层。推荐模型接收用户历史交互的token序列,用标准的序列建模技术(如)来预测下一个交互物品的token。

全局图编码:如何处理10亿级的图?

工业级的用户-物品交互图动辄有数十亿条边。传统的图神经网络(如GCN、GAT)需要在图上进行多轮消息传递,每一轮都涉及所有边的计算。对于10亿级的图,这是不可接受的。

G2Rec采用了一种"两阶段"的策略:

第一阶段:图粗化(Graph Coarsening)。 用高效的图聚类算法(如METIS或类似的多级分割算法)把原始的大图划分成若干个子图。每个子图包含一组紧密关联的物品。

第二阶段:子图嵌入。 在每个子图内部进行精细的图编码,提取物品之间的局部关系。然后,用子图之间的连接信息来捕获全局结构。

这就像地图的缩放:先看世界地图了解大洲之间的关系(全局),再放大到城市地图了解街区之间的关系(局部)。两个层次的信息结合起来,就得到了完整的地理知识。

语义分词器的设计

G2Rec的语义分词器基于残差量化(Residual Quantization)技术,但做了一个关键改进:引入了图结构信息作为额外的监督。

传统残差量化的工作方式是:先用一组聚类中心把向量空间粗略划分,再用第二组聚类中心对残差(即原始向量与最近聚类中心的差)进行更精细的划分。如此递归,直到达到所需的精度。

G2Rec的改进是:在每一轮量化中,聚类中心的更新不仅考虑向量空间中的距离,还考虑图结构中的共参与关系。具体来说,如果两个物品在共参与图中紧密相连,它们的向量在量化后应该映射到相近的token。

这个设计的巧妙之处在于:它让分词器同时捕获了两种信息——语义相似性(从文本特征来)和行为相似性(从共参与图来)。这两种信息的融合产生了既有可解释性又有区分力的token。

生成式推荐模型的训练

有了高质量的token化物品表示,生成式推荐模型的训练就相对直接了。G2Rec使用了一个标准的Transformer编码器,输入是用户历史交互物品的token序列,输出是下一个物品的token预测。

训练目标是交叉熵损失——和GPT的训练方式基本相同。但G2Rec加入了一个额外的正则化项:鼓励模型的中间表示与底层的图结构信息保持一致。这个正则化项确保了模型不仅在token级别上学习用户偏好,还在更抽象的兴趣原型级别上理解用户。

为什么不需要真实兴趣标签?

G2Rec不需要显式的兴趣标签,但它的学习效果似乎有监督一样好。这是怎么做到的?

秘密在于自监督学习。G2Rec的训练包含两个自监督任务:

  1. 共参与预测:给定物品A,预测哪些物品会与它共同出现在同一用户的交互历史中。这个任务隐式地编码了物品之间的"亲缘关系"。

  2. 兴趣原型对比学习:把同一用户交互过的物品映射到相近的兴趣原型,把不同用户的物品映射到不同的原型。这个任务让兴趣原型自然地从数据中涌现出来。

这两个自监督任务的结合,让G2Rec能够在没有人工标注的情况下,自动发现用户群体中的兴趣结构。


实验结果分析

公开数据集上的表现

研究者在多个公开推荐数据集上进行了实验,包括Amazon Review(商品推荐)和MovieLens(电影推荐)。

方法 Recall@10 NDCG@10
SASRec(纯序列) 0.0823 0.0412
S3-Rec(语义预训练) 0.0891 0.0456
DROS(图+序列) 0.0934 0.0489
G2Rec 0.1012 0.0534

G2Rec在所有指标上都取得了最佳成绩。与最强的基线方法DROS相比,Recall@10提升了8.3%,NDCG@10提升了9.2%。

消融实验

研究者进行了详细的消融实验,验证各个组件的贡献:

  • 去掉全局图编码:Recall@10下降6.2%,证明图结构信息至关重要
  • 去掉语义分词中的图监督:Recall@10下降3.1%,证明图信息对分词质量有显著影响
  • 去掉兴趣原型正则化:Recall@10下降2.4%,证明兴趣原型的学习是有价值的

线上部署结果

G2Rec在一个大型推荐平台上完成了线上部署,服务数千万用户。A/B测试的关键结果:

  • 点击率提升5.2%
  • 转化率提升3.8%
  • 用户平均停留时间增加4.1%

这些数字在推荐系统领域是相当显著的改进。


与现有工作对比

与传统推荐方法的对比

传统方法(矩阵分解、深度学习排序)主要关注用户-物品的直接匹配,无法充分利用图结构信息。G2Rec通过全局图编码,能够捕获更深层的物品关系。

与图推荐方法的对比

图推荐方法(PinSage、LightGCN)虽然利用了图结构,但通常只能处理局部邻域信息。G2Rec的两阶段策略让它能够捕获全局图结构,同时保持计算效率。

与生成式推荐方法的对比

先前的生成式推荐方法(如TIGER)主要关注物品token化,但对用户行为上下文的建模相对简单。G2Rec通过引入图结构的用户上下文建模,显著提升了推荐质量。


潜在应用与影响

电商推荐

G2Rec的核心思想可以直接应用于电商平台。共参与图在电商场景中尤其丰富——用户经常同时购买相关商品(如手机+手机壳+充电器)。G2Rec能自动发现这些关联模式,并用于生成更精准的推荐。

内容推荐

在视频、文章、音乐等内容推荐场景中,G2Rec的语义分词能力特别有价值。它能把内容按用户的消费模式而非纯粹的语义属性来分组,从而产生更符合用户实际偏好的推荐。

跨域推荐

G2Rec的图编码方法可以自然地扩展到跨域场景。比如,用户的购物行为和阅读行为可以形成一个异构图,G2Rec能在这个图上学习跨域的兴趣原型。


局限性与未来方向

计算成本

虽然G2Rec的图编码方法比传统GNN更高效,但在超大规模图上的训练仍然需要显著的计算资源。未来可以探索更轻量化的图编码方法。

冷启动问题

G2Rec依赖用户-物品交互图来建模兴趣。对于新用户或新物品(缺乏交互数据),图编码的质量会下降。需要结合内容特征来缓解冷启动问题。

动态兴趣建模

用户兴趣是随时间变化的,但G2Rec目前的图编码是静态的。未来可以引入时序图建模,让兴趣原型能够随时间演化。

多模态融合

G2Rec目前主要利用文本和行为数据。未来可以引入图像、视频等多模态信息,进一步提升分词质量。


总结

G2Rec为生成式推荐提供了一个优雅而实用的解决方案。它的核心贡献在于:通过全局图编码和语义分词的统一框架,同时解决了用户行为上下文建模和物品语义表示两个关键问题。

实验结果表明,G2Rec在多个数据集和线上场景中都优于现有方法。更重要的是,它不需要显式的兴趣标签,兴趣原型可以从数据中自动涌现——这大大降低了工业部署的门槛。

随着生成式推荐范式的持续发展,G2Rec代表了一个重要的技术方向:将图结构的全局信息与序列生成的局部建模相结合。这个方向可能会影响未来几年推荐系统的技术路线。

常见问题

全局图编码:如何处理10亿级的图?

>全局图编码:如何处理10亿级的图?工业级的用户-物品交互图动辄有数十亿条边。传统的图神经网络(如GCN、GAT)需要在图上进行多轮消息传递,每一轮都涉及所有边的计算。对于10亿级的图,这是不可接受的。 G2Rec采用了一种"两阶段"的策略: 第一阶段:图粗化(Graph Coarsening)。 用高效的图聚类算法(如METIS或类似的多级分割算法)把原始的大图划分成若干个子图。每个子图包含一组紧密关联的物品。 第二阶段:子图嵌入。 在每个子图内部进行精细的图编码,提取物品之间的局部关系。然后,用子图之间的连接信息来捕获全局结构。 这就像地图的缩放:先看世界地图了解大洲之

为什么不需要真实兴趣标签?

>为什么不需要真实兴趣标签?G2Rec不需要显式的兴趣标签,但它的学习效果似乎有监督一样好。这是怎么做到的? 秘密在于自监督学习。G2Rec的训练包含两个自监督任务: 共参与预测:给定物品A,预测哪些物品会与它共同出现在同一用户的交互历史中。这个任务隐式地编码了物品之间的"亲缘关系"。 兴趣原型对比学习:把同一用户交互过的物品映射到相近的兴趣原型,把不同用户的物品映射到不同的原型。这个任务让兴趣原型自然地从数据中涌现出来。 这两个自监督任务的结合,让G2Rec能够在没有人工标注的情况下,自动发现用户群体中的兴趣结构。

评论