单细胞RNA测序(scRNA-seq)是当今生物信息学领域最具变革性的实验技术之一。它能在单个细胞层面精确刻画基因表达图谱,让研究者得以辨识不同的细胞类型,深入理解细胞群体内部的异质性结构。然而,从海量的测序数据中提取有意义的生物学信息绝非易事——数据固有的稀疏性、高噪声特征以及细胞间错综复杂的结构关系,始终是悬在研究者头顶的三把利剑。2026年6月,来自四川大学、对外经济贸易大学、大湾区大学和香港教育大学的联合团队在arXiv上发表了题为"scGTN: Deep Siamese Graph Transformer Network for Single-cell RNA Sequencing Clustering"的论文,提出了一种全新的单细胞RNA测序聚类框架,试图从根本上破解这些技术瓶颈。
单细胞测序聚类:为什么这么难
要理解scGTN的价值,先得弄清楚单细胞RNA测序聚类到底难在哪。
scRNA-seq技术的原理并不复杂:对每个细胞中的RNA分子进行测序,量化各个基因的表达水平,最终得到一个N×D的表达矩阵,其中N是细胞数量,D是基因数量。一个典型的scRNA-seq实验可能涉及数千到数万个细胞,每个细胞的基因表达维度可达两万以上。细胞聚类的目标就是把这个巨大的表达矩阵划分成若干生物学上有意义的群组——同一群组内的细胞属于相同或相似的细胞类型。
问题在于,scRNA-seq数据天生就"脏"。技术层面的drop-out效应(即某些基因在实际表达了的情况下未被检测到)会导致表达矩阵极其稀疏,大量数值为零。与此同时,实验操作中的测量噪声进一步恶化了数据质量。这两个因素叠加在一起,使得从原始表达数据中构建可靠的细胞间关系图变得异常困难。
更深层的挑战在于,现有的图神经网络(GNN)方法虽然已经将细胞间关系建模为图结构,但它们主要依赖局部邻域聚合机制。换言之,一个细胞节点只能"看到"它直接相连的邻居,而无法有效利用图中更丰富的全局结构信息——比如两个细胞之间的最短路径长度、节点间的相对位置关系等。这些结构线索对区分不同细胞类型至关重要,却被传统方法白白浪费掉了。
论文中给出了一个直观的对比:在人类胰腺细胞数据集上,仅使用基因表达特征计算的细胞相似度分布高度同质、难以区分;而一旦引入位置关系和最短路径距离等结构信息,不同细胞类型之间的区分度显著提升。这个观察直接催生了scGTN的核心设计思路。
scGTN框架:三个模块各司其职
scGTN的整体架构由三个核心模块组成:双增强模块(Dual Augmentation Module)、孪生图Transformer网络融合模块(Siamese Graph Transformer Network Fusion Module)以及最优传输聚类模块(Optimal Transport Clustering Module)。三个模块环环相扣,形成一条从数据预处理到最终聚类的完整流水线。
模块一:双增强——对抗稀疏与噪声
面对scRNA-seq数据固有的稀疏和噪声问题,scGTN采取了一种"双管齐下"的增强策略,分别从基因表达层面和细胞间图结构层面生成两个互补的视图。
基因表达扰动的思路很直觉:给原始表达矩阵施加高斯噪声。具体来说,对每个细胞的基因表达向量x_i,乘以一个从正态分布N(1, 0.1)中采样的随机掩码向量m,得到扰动后的表达。分别施加两次独立的扰动,就得到了两个增强的基因表达矩阵。这种做法模拟了基因表达的自然变异性,让模型在训练过程中接触到更多样的表达模式,从而学到更鲁棒的特征表示。
图结构增强则分为两条路径。第一条路径是边裁剪:基于细胞间的余弦相似度,移除相似度最低的10%的边,同时保留自环。这一步的目的是过滤掉那些由噪声引入的虚假连接,只保留生物学上最有意义的细胞关系。第二条路径是图扩散:通过信息在图上的传播来增强有意义的细胞连接。扩散系数控制着信息在细胞图中的传播范围。这种扩散机制能让信息跳过直接邻居,渗透到更远的节点,从而捕捉到更大尺度的细胞组织模式。
两个图增强视图配合两个基因表达增强视图,形成四组输入,为下游的孪生网络提供了丰富的互补信息。
模块二:孪生图Transformer——捕获深层结构信息
这是scGTN最核心也最具创新性的部分。它包含三个子组件:基因表达编码、显式细胞间结构编码以及孪生图Transformer精炼。
基因表达编码方面,scGTN使用两个权重共享的孪生图编码器分别处理两个增强视图。对每个细胞节点,系统从其邻居中选出特征最相似的top-t个节点,将它们的特征拼接成序列,然后通过基因表达编码函数将这个序列编码为一个紧凑的特征向量。这一步将原始的高维基因表达信息压缩到一个更紧凑、更具判别力的特征空间中。
显式细胞间结构编码是scGTN区别于以往方法的关键创新。它同时引入了两种结构信息:位置嵌入和最短路径嵌入。
位置嵌入的设计借鉴了Transformer中的位置编码思想,但做了针对性改造。每个细胞节点被赋予一个相对位置值——中心节点的位置值为0,其邻居按照与中心节点的相似度排序,相似度越高的邻居位置值越接近0。通过位置映射函数,这些位置值被转换为d维的嵌入向量。这样,模型就能感知到每个邻居节点在局部拓扑中的"方位"。
最短路径嵌入则更加精巧。在构建好的细胞图中,任意两个节点之间的最短路径编码了它们之间的连接结构。即使两个细胞在基因表达层面并不直接相似,它们之间可能通过若干中间节点存在一条"生物学路径"——比如从免疫细胞到干细胞再到上皮细胞的分化链条。最短路径嵌入函数将这些路径信息转换为嵌入向量,让模型能够捕捉到超越直接邻域的全局结构关系。
最后,三部分嵌入被整合在一起,然后送入标准的多头注意力Transformer层进行精炼。经过L层Transformer处理后,通过均值池化得到每个细胞节点的最终嵌入。为了避免两个视图之间的特征坍缩和冗余,scGTN还引入了相关损失L_cor,鼓励同一细胞在两个视图中的嵌入保持一致(对角元素趋近1),同时不同细胞的嵌入保持正交(非对角元素趋近0)。
两个视图的最终嵌入取平均,得到融合后的细胞嵌入,作为下一阶段聚类的输入。
模块三:最优传输聚类——自监督的优雅解法
聚类阶段,scGTN采用了一种基于最优传输(Optimal Transport)的自监督策略。
首先,使用学生t-分布衡量每个细胞嵌入与各聚类中心之间的相似度,得到软聚类分配矩阵Q。然后,通过锐化操作将Q转化为目标分布P,其中聚类频率起到了归一化的作用。
关键的一步在于最优传输的引入。传统的深度聚类方法(如DEC)直接最小化KL散度来对齐分配矩阵和目标分布,但这容易导致退化解——所有细胞被分配到同一个聚类。scGTN通过最优传输框架来约束聚类分配:在满足每行和为1(每个细胞恰好分配到一个聚类)和列和正比于混合比例(聚类大小受控)的双重约束下,最小化传输成本。
为了高效求解这个带约束的优化问题,scGTN引入了Sinkhorn距离方法,通过添加熵正则化项和拉格朗日乘子,将硬约束转化为软约束,然后通过迭代更新对偶变量来逼近最优传输计划。最终的聚类损失为KL散度形式。
混合比例的设置方式也很有讲究:它直接从中间聚类结果中导出,而不是预先固定。这意味着聚类的粒度会随着训练的推进自适应调整,避免了人为设定聚类比例可能带来的偏差。
总体优化目标
scGTN的最终损失函数由四个分量组成:聚类损失L_clu、相关损失L_cor、重建损失L_rec和ZINB损失L_ZINB。
除了前面提到的聚类损失和相关损失之外,还有两个重要的正则化项。重建损失利用学到的细胞嵌入重建细胞图,通过均方误差约束重建图与原始图的一致性,帮助保留细胞间结构信息。ZINB损失(零膨胀负二项分布损失)专门针对scRNA-seq数据的两个统计特性——大量零值(零膨胀)和过度离散——进行建模,使编码器能够学到更符合生物学实际的特征表示。超参数α、β和γ分别控制各分量的贡献权重。四个损失分量的组合确保了模型在聚类精度、特征多样性、结构保真度和数据拟合能力之间取得平衡。
实验验证:全面碾压基线方法
研究团队在多个基准scRNA-seq数据集上进行了全面的性能评估,与9种代表性方法进行了对比,包括pcaReduce、DEC、contrastive-sc、scNAME、scDeepCluster、scDSC、AttentionAE-sc、scGNN和scCDCG。评估指标涵盖聚类准确率(ACC)、标准化互信息(NMI)和调整兰德系数(ARI)。
在Muraro人类胰腺细胞数据集上,scGTN取得了ACC 96.02%、NMI 89.15%、ARI 93.10%的成绩,全面超越所有基线方法。相比之下,表现第二好的scSiameseClu的三项指标分别为94.95%、86.19%和91.59%。在Human Pancreas cells 1数据集上,scGTN的优势更加明显:ACC达到97.21%,NMI达到93.23%,ARI达到96.61%,分别比最佳基线高出2.09、3.73和3.21个百分点。
值得注意的是,在Human Pancreas cells 2数据集上,scGTN同样以ACC 91.13%、NMI 90.63%的优异表现领先。在其他数据集上(如scHuman pancreas cells、Romanov mouse brain cortex cells等),scGTN也展现出了稳定且显著的性能优势。
在统计显著性分析方面,研究团队对每组实验进行了多次随机运行,报告了均值和标准差。scGTN在大多数指标上的标准差明显小于基线方法,说明该框架不仅性能更优,而且更加稳定可靠。这种稳定性在实际的生物信息学分析中尤为重要——研究者需要的是可重复的、一致的结果,而不是在不同随机种子下表现大相径庭的模型。
消融实验:每个组件都不可或缺
为了验证各组件的贡献,研究团队进行了系统的消融实验。结果表明:
去掉基因表达扰动后,模型性能出现明显下降,说明数据增强对缓解稀疏性至关重要。移除图结构增强(边裁剪或图扩散中的任一)也会导致性能退化,证实了双视图互补策略的有效性。最关键的发现是,去掉最短路径嵌入和位置嵌入后,模型性能大幅下降——这直接印证了论文的核心论点:显式建模细胞间结构信息对聚类任务有显著的正向作用。
最优传输策略的贡献同样不可忽视。用标准的KL散度损失替代最优传输后,聚类质量明显降低,且在训练后期更容易出现退化现象。这说明最优传输的约束机制确实能够有效防止所有细胞被分配到单一聚类的病态情况。
此外,研究团队还进行了扩展消融实验,分别移除重建损失和ZINB损失来检验它们的贡献。结果表明,重建损失的引入帮助模型更好地保留了细胞间结构信息,而ZINB损失则有效处理了scRNA-seq数据中的零膨胀和过度离散问题。两项损失的移除都会导致不同程度的性能下降,证实了它们在整体优化目标中的必要性。
敏感性分析与计算效率
论文还对关键超参数进行了敏感性分析。邻居数量t和Transformer层数L是两个最重要的架构参数。实验表明,t取5到10、L取2到3时性能最优。过小的t会丢失邻域信息,过大的t则会引入噪声;过少的Transformer层无法充分捕获高阶结构关系,过多的层则可能带来过拟合。
扩散系数η的敏感性分析同样具有参考价值。η过小意味着信息传播范围有限,无法充分利用图的全局结构;η过大则可能导致过度平滑,模糊不同细胞类型之间的边界。实验确定的最优范围为0.1到0.3。
聚类分配中的自由度参数θ也值得关注。θ控制着学生t-分布的尾部厚度:θ越大,分布越接近高斯分布,聚类边界越锐利;θ越小,分布尾部越重,允许更多的模糊分配。实验结果表明θ取4到8之间效果最佳。
在运行效率方面,scGTN虽然引入了最短路径计算等额外操作,但由于Transformer编码器的高效并行特性,整体运行时间与大多数基线方法处于同一量级,具有实际可用性。论文附录中提供了详细的运行时间对比数据,显示scGTN在中等规模数据集上的训练时间约为10到30分钟,在大规模数据集上也在可接受范围内。
生物学分析:聚类结果的生物学意义
论文不止步于数值指标的比较,还对聚类结果进行了深入的生物学分析。通过t-SNE可视化,scGTN生成的细胞嵌入展现出清晰的聚类边界,不同细胞类型之间有明显的分离。更重要的是,在聚类结果上进行轨迹推断分析,scGTN能够还原出合理的细胞分化轨迹——这表明模型学到的嵌入不仅在统计指标上优秀,更蕴含了真实的生物学信息。
此外,通过基因富集分析,不同聚类中高表达的基因与已知的细胞类型标记基因高度吻合。例如,胰腺数据集中α细胞聚类的标记基因与胰岛素分泌通路高度相关,β细胞聚类的标记基因与葡萄糖代谢通路一致。内分泌细胞、腺泡细胞、导管细胞等不同类型细胞各自展现出独特的基因表达模式。这些生物学层面的验证,从另一个维度证明了scGTN的有效性。
在小鼠大脑皮层数据集上的分析同样令人信服。scGTN成功区分了谷氨酸能神经元、GABA能神经元、少突胶质细胞、星形胶质细胞等多种神经细胞类型,其聚类结果与已知的细胞分类体系高度一致。这表明scGTN不仅适用于特定的组织类型,而是具有跨组织、跨物种的泛化能力。
特别值得注意的是轨迹推断的结果。在胰腺发育数据集中,scGTN的嵌入空间清晰地展现了从内分泌祖细胞到α细胞、β细胞、δ细胞等多种成熟内分泌细胞类型的分化路径。这种轨迹信息通常需要专门的轨迹推断算法才能获得,而scGTN仅通过聚类过程就隐式地捕捉到了这些信息,这进一步说明了其学到的嵌入质量之高。
方法论启示:从局部到全局
scGTN的核心贡献不在于某个单一的技术创新,而在于它提供了一种系统性的思考框架:如何在图神经网络中同时利用局部特征和全局结构信息来解决单细胞数据的聚类问题。
以往的方法要么只关注基因表达特征的相似性(局部),要么通过简单的GNN邻域聚合来隐式地利用图结构(仍然是局部的)。scGTN则明确地将最短路径和节点距离这两种全局结构信号注入模型,填补了这一信息利用的空白。这种思路不仅仅适用于单细胞RNA测序,在蛋白质相互作用网络分析、药物靶标发现、基因调控网络推断等其他生物信息学图学习任务中,同样具有启发意义。
孪生架构的引入也是值得关注的设计选择。通过权重共享的双分支结构同时处理两个增强视图,模型能够在对比学习的框架下学到对噪声和扰动具有不变性的细胞表示。相关损失L_cor则保证了两个视图之间的信息互补而非冗余,这是孪生网络在单细胞领域的一次成功应用。
最优传输的引入则为自监督聚类提供了一个更优雅的理论框架。传统的自监督聚类方法(如DEC中的KL散度最小化)缺乏对聚类分布的显式约束,容易陷入退化解。最优传输通过运输计划的边际约束,天然地保证了聚类分配的多样性和均衡性,是一种从数学层面就规避了退化风险的方案。
从更宏观的视角看,scGTN体现了当前生物信息学方法发展的一个重要趋势:将机器学习领域的前沿技术(图Transformer、对比学习、最优传输)与生物学领域的领域知识(基因表达的零膨胀特性、细胞分化的层级结构、细胞间通信的网络本质)深度结合。这种跨学科的融合不是简单的技术嫁接,而是对生物学问题本质的深刻理解和对机器学习工具箱的精准调用。
代码开源与可复现性
研究团队在GitHub上公开了scGTN的完整实现代码(https://github.com/W-RMSL/scGTN),包括数据预处理、模型训练和评估的全部流程。论文采用CC BY 4.0许可协议发布,代码的开放性保证了研究结果的可复现性,也为后续研究者在自己的数据集上应用和改进该方法提供了便利。
这种开放科学的做法值得肯定。在单细胞测序领域,方法的可复现性一直是困扰社区的难题。许多论文声称的性能优势在第三方复现时往往大打折扣,部分原因就在于代码和实验细节的不透明。scGTN团队的代码公开为这一问题提供了正面示范。
论文还提供了详细的附录,包括相关工作的全面综述(涵盖经典聚类方法和深度图聚类方法两条脉络)、详细的实验设置说明、统计显著性分析、轨迹推断验证、超参数敏感性分析、运行时间分析以及扩展消融实验。这种详尽的补充材料大大提升了论文的参考价值。
局限性与未来方向
尽管scGTN在多个基准数据集上取得了领先成绩,但仍有几个值得探讨的局限性。首先,最短路径的计算在大规模图上可能成为瓶颈——当细胞数量达到十万级别时,精确的最短路径计算开销不容忽视。虽然论文中的实验规模尚在可接受范围内,但随着单细胞测序技术向更高通量发展,这一问题可能日益突出。
其次,当前框架假设聚类数量C已知或可预先设定,而在实际的探索性研究中,细胞类型的数量往往是一个需要发现的未知量。如何在未知聚类数的场景下自适应地确定最优的类别划分,是一个值得深入研究的方向。
第三,scGTN目前处理的是单一模态的转录组数据,如何扩展到多组学整合(如同时利用ATAC-seq染色质可及性数据、蛋白质组学数据、空间转录组数据等)是一个值得探索的方向。多模态数据的融合有望提供更全面的细胞画像,但同时也对模型架构和训练策略提出了更高的要求。
未来的研究可以考虑以下路径:引入近似最短路径算法(如基于采样的方法或图神经网络估计的距离)来提升大规模数据上的可扩展性;开发自动确定聚类数量的机制,例如基于非参数贝叶斯方法或信息论准则;以及将框架扩展为多模态融合架构,充分利用多组学数据提供的互补信息。
此外,将scGTN与空间转录组技术结合也是一个颇具前景的方向。空间转录组数据天然包含细胞的空间位置信息,这与scGTN强调的结构信息利用理念不谋而合。如何将物理空间坐标与基因表达图结构有机融合,可能催生出更强大的单细胞分析工具。
结语
scGTN为单细胞RNA测序聚类提供了一个全新的技术范式。它将基因表达扰动与图结构增强相结合,通过孪生图Transformer显式编码最短路径和节点距离信息,并借助最优传输策略实现自监督聚类。在多个基准数据集上的实验结果证明了这一框架的有效性和优越性。随着单细胞测序技术的不断进步和数据规模的持续增长,像scGTN这样能够同时利用特征信息和结构信息的方法,将在生物信息学研究中发挥越来越重要的作用。
论文信息:
- 标题:scGTN: Deep Siamese Graph Transformer Network for Single-cell RNA Sequencing Clustering
- 作者:Jinke Wu, Yifan Wang, Siyu Yi, Caiyang Yu, Ziyue Qiao, Nan Yin, Jiancheng Lv, Wei Ju
- 机构:四川大学、对外经济贸易大学、大湾区大学、香港教育大学
- arXiv: 2606.18672v1
- 发布日期:2026年6月17日
- 许可:CC BY 4.0
- 代码:https://github.com/W-RMSL/scGTN
深入技术细节:图Transformer如何工作
要真正理解scGTN的技术精髓,有必要深入剖析其图Transformer的具体工作机制。标准的Transformer架构在自然语言处理中已经取得了巨大成功,但将其直接迁移到图结构数据上并非易事。图数据不具有序列数据的天然顺序性,节点之间的连接关系也远比文本中的词序复杂。
scGTN采用的图Transformer在标准注意力机制的基础上做了关键改造。传统Transformer中的注意力权重完全由查询和键向量的点积决定,而在图Transformer中,注意力权重还需要考虑节点之间的结构关系。具体来说,scGTN将三种信息注入注意力计算过程:第一,节点的基因表达特征(通过查询-键点积捕捉);第二,节点之间的位置关系(通过位置嵌入P编码);第三,节点之间的最短路径距离(通过最短路径嵌入H编码)。
这种多信息源融合的注意力机制让模型能够在做注意力决策时同时考虑"这个邻居的基因表达和我有多像"、"这个邻居在我的局部拓扑中处于什么位置"以及"这个邻居和我之间隔着多少跳"三个维度的信息。相比仅使用基因表达特征的传统方法,这种多维度的注意力机制显然能做出更准确的判断。
多头注意力的引入进一步增强了模型的表达能力。不同的注意力头可以分别关注不同维度的信息——有的头可能专注于基因表达相似的近邻,有的头可能擅长识别通过最短路径连接但基因表达差异较大的远邻。这种分工协作让模型能够捕获细胞间多层次、多尺度的关系。
前馈网络(FFN)和残差连接的使用则保证了模型的训练稳定性和梯度流。残差连接让深层Transformer能够有效训练而不会出现梯度消失,FFN则在注意力计算之后引入非线性变换,增强特征的表达能力。
从数据到图:kNN图构建策略
scGTN的另一个值得细究的设计选择是细胞图的构建方式。论文采用k近邻(kNN)策略来建立细胞之间的连接:对每个细胞,找到其基因表达空间中最近的k个邻居,然后将这些邻居连接起来形成图的边。
kNN图构建看似简单,但其中的细节对最终的聚类效果有着不可忽视的影响。首先,距离度量的选择至关重要。scGTN使用皮尔逊相关系数来衡量细胞之间的相似度,这比欧氏距离更适合基因表达数据——因为皮尔逊相关系数关注的是表达模式的相似性(即哪些基因高表达、哪些低表达的趋势),而不是表达量的绝对差异。两个细胞可能整体表达水平不同(比如由于测序深度的差异),但如果它们的基因表达模式相似,皮尔逊相关系数仍然会给出较高的相似度。
k值的选择也是一个需要权衡的问题。k太小会导致图过于稀疏,细胞之间的连接不足以传递有意义的信息;k太大会引入大量噪声连接,降低图的质量。论文中的实验数据集通常使用k=5到15的范围,具体的最优值取决于数据集的规模和复杂度。
构建好的kNN图是scGTN后续所有操作的基础。双增强模块中的图结构增强、孪生图Transformer中的最短路径计算、以及重建损失中的图重建,都依赖于这个初始图的质量。因此,虽然图构建不是scGTN的核心贡献,但它在整个框架中扮演着不可或缺的角色。
Sinkhorn距离:最优传输的高效求解
最优传输理论在机器学习中的应用近年来呈现出爆发式增长。经典最优传输问题的求解复杂度为O(n³ log n),对于单细胞数据中动辄数万个细胞的规模来说,这个计算开销是难以承受的。
scGTN采用的Sinkhorn距离方法通过引入熵正则化项,将原始的最优传输问题转化为一个更易求解的形式。熵正则化的作用是在传输计划中引入一定的"模糊性",使得原本离散的最优传输问题变为连续优化问题,从而可以使用高效的矩阵运算来求解。
具体来说,Sinkhorn算法通过交替更新两个对偶变量u和v来迭代逼近最优解。每一轮迭代只需要矩阵-向量乘法运算,计算复杂度为O(n²),远低于原始最优传输的O(n³ log n)。更重要的是,Sinkhorn算法天然支持GPU加速——矩阵-向量乘法在GPU上可以高度并行化,这使得scGTN能够高效处理大规模的单细胞数据集。
熵正则化参数λ的设置也有讲究。λ越大,传输计划越"模糊",求解越快但精度越低;λ越小,传输计划越接近原始最优传输的解,但计算开销也越大。论文中通过交叉验证确定了λ的最优范围,在精度和效率之间取得了良好的平衡。
零膨胀负二项分布损失:为scRNA-seq数据量身定制
ZINB(Zero-Inflated Negative Binomial)损失是scGTN目标函数中一个经常被忽视但极其重要的组成部分。它的引入体现了研究团队对scRNA-seq数据统计特性的深刻理解。
scRNA-seq数据的两个核心统计特征是零膨胀和过度离散。零膨胀指的是数据中零值的比例远高于标准计数分布(如泊松分布或负二项分布)的预测。这些零值中有两类:生物学零值(基因确实不表达)和技术零值(基因表达了但未被检测到,即drop-out事件)。过度离散指的是数据的方差显著大于均值,这与简单的泊松分布假设相矛盾。
ZINB分布通过两个组件来同时处理这两个问题。负二项分布组件负责处理过度离散——它比泊松分布多了一个参数来控制方差,允许方差独立于均值变化。零膨胀组件则通过一个额外的伯努利变量来模拟额外的零值产生过程——每个基因表达值有一定概率被"压"为零,这个概率与基因的表达水平和细胞的测序深度相关。
在scGTN中,ZINB损失的作用是约束编码器学到的细胞嵌入能够忠实地重建原始的基因表达数据。编码器将高维的基因表达向量压缩到低维嵌入空间,解码器(ZINB分布的参数网络)再从嵌入中重建原始表达。重建损失的大小反映了嵌入对原始数据的信息保留程度。通过最小化ZINB损失,模型被激励去学习能够保留基因表达关键信息的嵌入,而不是仅仅为了聚类目的而压缩信息。
这种设计保证了scGTN学到的嵌入既有聚类判别力(来自聚类损失和相关损失),又有生物学忠实度(来自ZINB损失),同时保留细胞间结构信息(来自重建损失)。四个损失分量各司其职,共同塑造出一个高质量的细胞嵌入空间。
与现有方法的对比分析
为了更好地理解scGTN的定位,有必要将其与近年来其他代表性的单细胞聚类方法进行对比。
scGNN(Single-cell Graph Neural Network)是最早将图神经网络引入单细胞聚类的方法之一。它通过图自编码器学习细胞嵌入,然后使用GMM进行聚类。与scGTN相比,scGNN的主要局限在于它没有显式利用图的全局结构信息——最短路径和节点距离等信号完全被忽略。此外,scGNN的聚类步骤与嵌入学习是分离的,无法实现端到端的联合优化。
scCDCG(Contrastive Deep Clustering for scRNA-seq)引入了对比学习框架来增强细胞嵌入的判别力。它通过数据增强和对比损失来学习对噪声鲁棒的表示。然而,scCDCG的对比学习仅在特征层面进行,没有利用图结构中的拓扑信息。scGTN则通过孪生图Transformer将对比学习与图结构编码深度结合,在对比学习的框架下同时利用了特征信息和结构信息。
scSiameseClu是与scGTN最接近的方法,也采用了孪生网络架构。两者的主要区别在于结构信息的利用方式:scSiameseClu通过GNN的邻域聚合来隐式地利用图结构,而scGTN则通过最短路径嵌入和位置嵌入来显式地编码结构信息。实验结果表明,显式编码方式在多个数据集上都优于隐式聚合方式。
contrastive-sc和scDeepCluster分别代表了对比学习和自编码器两条技术路线。它们在各自的路线上都取得了不错的效果,但在处理复杂的细胞间关系时都显得力不从心。scGTN通过融合图Transformer和最优传输,为单细胞聚类提供了一条更综合、更强大的技术路径。
实际应用场景展望
scGTN的技术框架在多个实际生物医学场景中具有应用潜力。
在肿瘤异质性研究中,scGTN可以帮助识别肿瘤组织中不同亚群的癌细胞。肿瘤内部的异质性是导致治疗失败和耐药性产生的重要原因之一,准确地识别和分类不同的肿瘤细胞亚群对于制定精准治疗策略至关重要。scGTN对结构信息的强调特别适合这一场景——肿瘤细胞亚群之间的分化关系和空间分布往往蕴含着重要的生物学信息。
在免疫学研究中,scGTN可用于解析复杂的免疫细胞图谱。免疫系统包含数十种功能各异的细胞类型,它们之间存在复杂的分化和激活关系。scGTN的最短路径嵌入能够自然地捕捉这些分化路径,帮助研究者理解免疫应答的动态过程。
在发育生物学中,scGTN的轨迹推断能力使其成为研究胚胎发育和器官形成的有力工具。通过分析不同发育阶段的单细胞数据,scGTN可以揭示细胞命运决定的关键节点和分化路径,为理解生命发育过程提供新的视角。
在药物研发领域,scGTN可以用于分析药物处理后的细胞响应异质性。通过比较处理前后的单细胞图谱,研究者可以识别出对药物敏感和耐受的细胞亚群,从而指导药物组合策略和个体化治疗方案的设计。
结束语
scGTN代表了单细胞RNA测序聚类方法的一个重要进步。它不仅在技术层面提出了创新的解决方案(孪生图Transformer加最优传输),更在方法论层面展示了一种将领域知识与机器学习前沿技术深度融合的研究范式。从基因表达扰动到图结构增强,从最短路径嵌入到Sinkhorn最优传输,每一个设计选择都体现了研究团队对生物学问题本质的深刻理解和对技术工具的精准运用。
随着空间转录组学、多组学整合和大规模细胞图谱计划的推进,单细胞数据分析将面临更大的挑战和更多的机遇。scGTN为这个快速发展的领域注入了新的活力,也为后续研究者提供了宝贵的参考和灵感。
论文信息:
- 标题:scGTN: Deep Siamese Graph Transformer Network for Single-cell RNA Sequencing Clustering
- 作者:Jinke Wu, Yifan Wang, Siyu Yi, Caiyang Yu, Ziyue Qiao, Nan Yin, Jiancheng Lv, Wei Ju
- 机构:四川大学、对外经济贸易大学、大湾区大学、香港教育大学
- arXiv: 2606.18672v1
- 发布日期:2026年6月17日
- 许可:CC BY 4.0
- 代码:https://github.com/W-RMSL/scGTN
评论