SpCAST：基于Kolmogorov-Arnold网络的单细胞分辨率空间转录组学分析框架

引言：空间转录组学的技术瓶颈

在过去十年间，空间转录组学（spatial transcriptomics）已经从一个边缘概念成长为发育生物学、肿瘤学和神经科学领域的核心工具。这项技术的根本目标很直接：在组织切片的原始空间位置上，逐个细胞地记录基因表达谱，从而在保留组织结构信息的前提下理解细胞异质性。

然而，技术路线的分裂给数据解读制造了不小的麻烦。当前主流的空间转录组平台大致分为两大阵营：基于成像的方法（imaging-based）和基于测序的方法（sequencing-based）。前者如MERFISH、seqFISH+，通过荧光原位杂交的多重迭代来检测目标基因，空间分辨率可以达到亚细胞级别，但受限于探针设计，通常只能检测几百到几千个预先选定的基因。后者如10x Visium、Slide-seq、Stereo-seq，通过空间条形码捕获组织切片上的mRNA并进行高通量测序，能够实现全转录组覆盖，但分子捕获效率往往不够理想，数据稀疏性和dropout问题普遍存在。

这两类平台产生的数据有一个共同的下游需求：细胞类型注释（cell-type annotation）。准确地给每个空间位置上的细胞贴上类型标签——这是解读空间转录组数据的第一步，也是最关键的一步。没有准确的细胞类型注释，后续的空间共定位分析、配体-受体互作推断、发育轨迹重建都无从谈起。

从单细胞参考到空间数据的标签迁移

面对空间数据本身的局限性，学界普遍采用的策略是：利用高质量的单细胞RNA测序（scRNA-seq）数据作为参考，通过计算方法将细胞类型标签"迁移"到空间数据上。这一策略的逻辑很清晰——scRNA-seq技术已经相当成熟，能够提供全转录组深度和可靠的细胞类型注释，而空间数据往往在基因覆盖度或数据质量上有所欠缺。

现有的标签迁移方法包括CellTrek、SPOTlight、cell2location、Tangram等，它们各自采用不同的统计模型和计算策略。但这些方法在处理高稀疏性数据或跨平台、跨物种迁移时，性能往往会出现明显下降。此外，多数方法在模型可解释性方面存在不足——用户很难理解模型为什么把某个细胞归类为特定类型，也无法直接获得支撑注释结果的关键基因信息。

SpCAST的核心设计：Kolmogorov-Arnold网络的应用

2026年5月，Yiyang Zhang、Bokai Zhao、Xiaoru Zhang、Zongchang Du、Xiaojuan Sun和Tianzi Jiang在arXiv上发表了题为"SpCAST: Decoding spatial transcriptomics at single-cell resolution with fast and interpretable analysis"的论文，提出了一个全新的分析框架SpCAST。这个框架最引人注目的技术选择，是采用了Kolmogorov-Arnold网络（KAN）作为核心模型架构。

Kolmogorov-Arnold网络的理论基础来源于Kolmogorov-Arnold表示定理，该定理证明任意多元连续函数都可以表示为一元连续函数的有限叠加。与传统的多层感知器（MLP）在节点上使用固定激活函数不同，KAN在边上使用可学习的样条函数（spline functions）作为激活。这种架构设计带来了两个关键优势：第一，它能够以更紧凑的网络结构捕获复杂的非线性映射关系；第二，由于边上的激活函数具有明确的数学形式，模型的决策过程变得更加透明和可解释。

SpCAST利用KAN来建模scRNA-seq参考数据与空间转录组数据之间的非线性映射关系。具体来说，框架首先在参考数据上学习基因表达空间到细胞类型标签空间的映射函数，然后将这个学到的映射应用到空间数据上，实现标签迁移。

特征归因与基因优先级排序

SpCAST框架的一个重要创新点在于其内置的可解释性机制。在完成细胞类型注释之后，SpCAST利用特征归因（feature attribution）方法来量化每个基因对细胞类型预测结果的贡献程度。这种做法的价值在于，它不仅告诉你"这个细胞是T细胞"，还能告诉你"模型判断它是T细胞主要依据了哪些基因的表达水平"。

从实际应用的角度看，这意味着SpCAST可以同时完成三项任务：细胞类型标签迁移、空间基因表达重建和标记基因候选优先级排序。标记基因（marker genes）的识别对于实验生物学家来说尤其重要——知道哪些基因是区分特定细胞类型的关键标志物，可以直接指导后续的免疫荧光验证、流式细胞术分选等实验设计。

大规模基准测试：53个数据集的系统评估

论文中最重要的贡献之一是对SpCAST进行了系统性的基准测试。作者收集了53个数据集，涵盖413,376个空间细胞，横跨五种不同的空间转录组技术平台和多种组织类型。这种规模的评估在同类工作中是比较少见的，也使得SpCAST的性能表现更具说服力。

测试结果显示，SpCAST在注释准确率上与现有代表性方法相当甚至更优，同时在运行时间上有明显的缩短。对于处理大规模空间数据集的研究者来说，计算效率的提升意味着更快的分析迭代速度和更低的计算资源消耗。

运行时间的优化部分归因于KAN网络架构本身的特性。与深度神经网络相比，KAN可以用更少的参数达到相近的表达能力，这使得前向推理和反向传播的计算量都相对较小。在处理数万到数十万细胞规模的数据集时，这种效率差异变得非常显著。

跨物种标签迁移的实际验证

论文中的案例研究展示了一个特别有实用价值的场景：跨物种标签迁移。在生物医学研究中，研究者经常需要将小鼠模型中获得的生物学知识迁移到人类组织的研究中。传统做法依赖于直系同源基因（orthologs）的映射，但不同物种之间基因表达模式的差异使得这种迁移并不总是可靠的。

SpCAST在跨物种标签迁移实验中展示了合理的表现，能够将一个物种的单细胞参考数据中的细胞类型信息有效地迁移到另一个物种的空间数据上。这一能力对于比较生物学研究和转化医学研究具有直接的意义——它意味着研究者可以更灵活地利用已有的参考数据资源，而不必为每个新的实验系统都从头构建参考图谱。

空间基因表达重建与标记基因发现

除了标签迁移之外，SpCAST在空间基因表达重建方面也展示了改进的空间一致性（spatial concordance）。所谓空间一致性，是指重建的基因表达模式在组织空间中的分布是否与已知的生物学结构相吻合。例如，某个标记基因应该在特定的细胞层或区域中高表达，如果重建结果显示的高表达区域与预期的解剖结构吻合良好，就说明模型捕获了有意义的生物学信号。

在标记基因优先级排序方面，SpCAST能够从大量候选基因中筛选出与特定细胞类型最相关的基因。这种能力在探索性研究中尤其有用——当研究者面对一个新的组织类型或疾病状态时，SpCAST可以帮助他们快速锁定值得关注的基因集合，从而缩小后续实验验证的范围。

技术路线的定位与前景

从技术路线的角度看，SpCAST代表了深度学习方法在空间组学数据分析中的一次有意义的探索。过去几年，深度学习在这个领域的应用主要集中在变分自编码器（VAE）、图神经网络（GNN）和注意力机制等架构上。KAN作为一种相对较新的神经网络架构，其在生物信息学领域的应用还处于早期阶段。SpCAST的尝试表明，KAN在处理基因表达数据的非线性关系方面具有潜力，特别是在需要模型可解释性的应用场景中。

可解释性在生物医学数据分析中的重要性怎么强调都不过分。临床研究者和实验生物学家不仅需要模型给出预测结果，更需要理解预测背后的生物学逻辑。一个无法解释其决策依据的"黑箱"模型，即使准确率再高，也难以获得实验验证的信任。SpCAST通过特征归因机制提供了一条从预测结果回溯到基因水平的可解释路径，这在实际应用中是一个相当重要的优势。

局限性与开放问题

当然，SpCAST也有其适用边界和待解决的问题。首先，KAN网络对样条函数参数的选择可能影响模型在不同数据分布上的泛化能力。其次，虽然特征归因提供了基因层面的解释，但这种解释是否真正反映了因果关系而非仅仅是统计相关性，仍然需要实验验证。此外，在面对细胞类型组成高度复杂、存在大量过渡态或中间态细胞的组织时，标签迁移方法的天然局限性——即参考数据中细胞类型定义的粒度——仍然会制约分析结果的分辨率。

从计算角度看，53个数据集的基准测试虽然覆盖了多种技术和组织类型，但空间转录组技术本身仍在快速迭代，新的平台和化学方法不断涌现。SpCAST在新一代平台上的适应性和性能表现，还需要持续的验证和更新。

结语

SpCAST作为一个基于Kolmogorov-Arnold网络的空间转录组学分析框架，在标签迁移准确率、计算效率和模型可解释性三个维度上展示了平衡的表现。对于正在使用成像平台的受限基因面板或测序平台的稀疏数据进行空间分析的研究者来说，SpCAST提供了一个值得尝试的新工具。而从更宏观的角度看，这项工作也展示了将新型网络架构引入生物信息学分析的价值——有时候，换一个数学工具，就能在老问题上找到新的突破口。

论文信息

标题：SpCAST: Decoding spatial transcriptomics at single-cell resolution with fast and interpretable analysis
作者：Yiyang Zhang, Bokai Zhao, Xiaoru Zhang, Zongchang Du, Xiaojuan Sun, Tianzi Jiang
arXiv ID：2605.26904
发布日期：2026年5月26日
领域：细胞生物学（q-bio.CB）

引言：空间转录组学的技术瓶颈

从单细胞参考到空间数据的标签迁移

SpCAST的核心设计：Kolmogorov-Arnold网络的应用

特征归因与基因优先级排序

大规模基准测试：53个数据集的系统评估

跨物种标签迁移的实际验证

空间基因表达重建与标记基因发现

技术路线的定位与前景

局限性与开放问题

结语

评论

相关推荐

SpCAST：基于Kolmogorov-Arnold网络的单细胞分辨率空间转录组学分析框架

SpCAST：基于Kolmogorov-Arnold网络的单细胞分辨率空间转录组学分析框架

scGTN：用孪生图Transformer网络攻克单细胞RNA测序聚类难题

基因证据与药物获批：26278对靶标-疾病数据揭示遗传学在新药开发中的真实权重

PyPeakRankR：用可复现的特征提取重新定义基因组调控元件排序