作者团队与机构背景
论文的作者团队来自中国的研究机构,通讯作者Tianzi Jiang(蒋田仔)是中国科学院自动化研究所的研究员,在脑科学和神经影像学领域有长期积累。团队成员涵盖了计算方法开发和生物数据分析的不同专长,这种组合对于一个既要建模又要做生物学验证的工作来说是必要的。张一阳(Yiyang Zhang)和赵博凯(Bokai Zhao)负责了核心算法的实现,张晓如(Xiaoru Zhang)、杜宗昌(Zongchang Du)和孙小娟(Xiaojuan Sun)则在数据分析和生物学解释方面做出了贡献。
值得注意的是,蒋田仔团队此前在脑科学研究中已经积累了大量使用空间转录组技术的经验,包括对小鼠和人类大脑的细胞类型图谱构建。SpCAST可以看作是他们在实际数据处理中遇到瓶颈后的技术回应——已有的工具不够快、不够透明,或者在处理他们特有的数据分布时表现不佳,于是他们决定自己造一个。
引言:当空间信息成为生物学的刚需
生命活动从来不是在试管里发生的。细胞在组织中的精确排布、不同类型细胞之间的空间邻接关系、信号分子在三维微环境中的梯度分布——这些空间维度的信息对理解发育过程、免疫应答、肿瘤微环境乃至神经回路功能都至关重要。然而,传统的单细胞RNA测序(scRNA-seq)技术在获取细胞悬液的过程中,不可避免地丢失了细胞的原始空间坐标。你得到了每个细胞的基因表达全貌,却不知道它们原本站在哪里。
空间转录组学的出现正是为了弥补这一缺憾。从2016年10x Visium的前身Slide-seq问世,到MERFISH、seqFISH+等成像平台的成熟,再到Stereo-seq将空间分辨率推至亚细胞级别,这个领域在短短几年内经历了爆发式的技术迭代。但技术繁荣的背后,一个基础性的分析难题始终悬而未决:如何准确地给空间数据中的每个细胞打上类型标签?
本文将解读2026年5月发表在arXiv上的SpCAST论文——一个基于Kolmogorov-Arnold网络(KAN)的空间转录组学分析框架。这项工作试图用一种新的数学工具来解决细胞类型注释这个老问题,同时兼顾模型的可解释性和计算效率。
空间转录组平台的技术格局
要理解SpCAST解决的问题,首先需要对当前的空间转录组技术格局有一个清晰的认识。
基于成像的平台
MERFISH(Multiplexed Error-Robust FISH)、osmFISH、seqFISH+等技术通过荧光原位杂交的多重迭代来检测组织切片上的RNA分子。这些方法的核心思路是用组合编码的方式给每个基因分配一个独特的荧光条形码,然后通过多轮成像来解码。MERFISH可以在单个细胞中同时检测数百到上千个基因,空间分辨率可以达到100纳米级别,足以分辨亚细胞结构。
但成像平台的代价是基因数量的限制。由于荧光通道数和成像轮次的约束,这些平台通常只能检测预先选定的几百到几千个基因。这个基因面板(gene panel)的选择需要研究者的先验知识——你必须提前决定要检测哪些基因。如果你感兴趣的细胞类型恰好缺乏已知的标记基因,或者标记基因没有被包含在面板中,那么基于成像的空间数据就可能无法有效区分这些细胞类型。
基于测序的平台
10x Visium、Slide-seq V2、Stereo-seq等技术走的是另一条路:在组织切片上放置带有空间条形码的捕获探针,将组织位置上的mRNA原位捕获后进行高通量测序。这些平台能够实现全转录组覆盖,不需要预先选择基因面板,理论上可以检测组织中表达的所有基因。
但基于测序的平台面临另一个问题:数据稀疏性。由于组织切片与捕获表面的贴合不够紧密、mRNA的扩散效应、以及分子捕获效率的固有限制,这些平台产生的数据往往存在大量的零值(dropout)。一个空间位置上可能只检测到了该细胞实际表达的基因中的一小部分。这种稀疏性给下游分析带来了巨大的挑战。
跨平台的共同需求
无论使用哪种平台,研究者都需要回答一个基本问题:我数据中的这些细胞分别是什么类型?对于基于成像的平台,基因面板的限制使得某些细胞类型难以区分;对于基于测序的平台,数据的稀疏性使得逐细胞的表达谱不够可靠。两种情况都需要借助外部参考数据来辅助细胞类型注释。
标签迁移:从scRNA-seq参考到空间数据
利用scRNA-seq数据作为空间转录组数据的参考,通过计算方法将细胞类型标签从参考数据"迁移"到空间数据上,这一策略已经成为空间转录组学分析的标准流程之一。
现有方法概览
目前已有多种标签迁移方法,它们在统计模型和计算策略上各有不同:
Tangram使用深度学习来对齐scRNA-seq和空间数据的基因表达矩阵,通过学习一个映射函数来将单细胞数据"投射"到空间坐标上。cell2location采用贝叶斯层次模型,将空间数据中的每个位置视为多个细胞类型的混合,通过变分推断来估计每种细胞类型在每个位置上的丰度。SPOTlight使用非负矩阵分解(NMF)来分解空间数据,将每个位置的表达谱表示为参考细胞类型签名的线性组合。CellTrek则通过流形对齐和随机游走来实现单细胞级别的空间映射。
这些方法在各自的设计场景下都能工作得不错,但它们也共享一些局限性。第一,多数方法假设参考数据和空间数据之间的基因表达关系是线性的或可以用简单的非线性变换来描述,而实际上两个数据集之间可能存在复杂的非线性差异,这些差异来源于平台效应(platform effect)、批次效应(batch effect)以及组织制备过程中的系统偏差。第二,大多数方法在模型可解释性方面投入不足——用户得到的是一个细胞类型标签和一个置信度分数,但无法直观地了解模型做决策时"看了"哪些基因。第三,计算效率在处理大规模数据集时往往成为瓶颈,尤其是基于贝叶斯推断的方法,其收敛速度可能很慢。
SpCAST的切入点
正是在这样的背景下,Zhang等人提出了SpCAST。这个框架的核心假设是:参考数据与空间数据之间的映射关系本质上是非线性的,而Kolmogorov-Arnold网络提供了一种比传统深度学习架构更适合捕获这种非线性关系的数学工具。
Kolmogorov-Arnold网络:从数学定理到神经网络架构
Kolmogorov-Arnold网络(KAN)是2024年左右开始受到广泛关注的一种新型神经网络架构。它的理论基础是Kolmogorov-Arnold表示定理(1957年),该定理证明:任意定义在紧致集上的多元连续函数f(x1, x2, ..., xn)都可以精确表示为有限个一元连续函数的叠加。其中hij和gi都是一元连续函数。这个定理的深刻含义在于:多元函数的复杂性可以完全分解为一元函数的组合。
KAN与MLP的关键区别
传统的多层感知器(MLP)在每个节点(神经元)上放置一个固定的非线性激活函数(如ReLU、sigmoid),而权重是线性的标量。信息流经网络时,每个节点先对输入做线性加权求和,然后通过固定的激活函数产生输出。
KAN的做法恰好相反:它在每条边(连接)上放置一个可学习的非线性函数,而节点的操作则是简单的求和。边上的函数通常参数化为B样条(B-spline),这是一种在数值分析和计算机图形学中广泛使用的分段多项式曲线。通过调整样条的控制点和节点向量,B样条可以灵活地逼近任意形状的一元函数。
这种架构交换带来的优势是多方面的:
参数效率更高。由于每条边本身就是一个灵活的函数逼近器,KAN可以用更少的层数和节点数来表示同样复杂的函数。这意味着更少的参数、更小的模型体积和更快的推理速度。
可解释性更强。每条边上的激活函数都有明确的数学形式,可以直接可视化和分析。你可以看到模型在每个特征维度上学到了什么样的非线性变换,这在MLP中是很难做到的——MLP的隐藏层权重矩阵通常没有直观的物理或数学含义。
适合科学计算。在物理模拟、偏微分方程求解等科学计算场景中,KAN已经被证明能够以远少于MLP的参数量达到相近甚至更好的精度。这暗示KAN在处理具有内在数学结构的数据时可能有天然优势。
基因表达数据为何适合KAN
基因表达数据具有几个适合KAN建模的特点。首先,基因之间的调控关系往往是非线性的:一个转录因子的表达水平变化可能在某个阈值以下不产生效应,超过阈值后才显著影响下游基因的表达。其次,不同基因对细胞类型的贡献是异质性的:有些基因在所有细胞类型中都高表达(housekeeping genes),其区分能力很低;有些基因只在特定细胞类型中高表达(marker genes),具有很强的区分能力。KAN边上的可学习函数能够自动捕获这些基因特异性的非线性响应模式。
SpCAST框架的详细解析
整体架构
SpCAST的工作流程可以分为几个主要阶段:
数据预处理。框架首先对scRNA-seq参考数据和空间转录组数据进行标准化处理,包括基因筛选、表达值归一化和批次效应校正等步骤。两个数据集被投射到共同的基因空间上——即只保留两者共有的基因。
KAN模型训练。SpCAST构建一个KAN网络,其输入层对应基因特征维度,输出层对应细胞类型标签。训练数据来自scRNA-seq参考数据,其中每个细胞都有已知的类型注释。网络在训练过程中学习基因表达空间到细胞类型空间的映射关系。
标签迁移。训练完成后,将空间数据的基因表达谱输入到模型中,得到每个空间位置的细胞类型预测。模型输出的不仅是硬标签("这是T细胞"),还包括软概率分布("这是T细胞的概率0.7,是B细胞的概率0.2,是巨噬细胞的概率0.1"),后者提供了更丰富的不确定性信息。
特征归因分析。利用集成梯度(integrated gradients)或其他归因方法,计算每个基因对最终预测结果的贡献分数。这些分数可以用来排序基因,识别出对特定细胞类型预测最重要的基因集合。
空间表达重建。基于学到的映射关系,SpCAST可以对空间数据中的基因表达进行"补全"或"重建",即利用模型学到的信息来推断那些由于dropout而缺失的基因表达值。重建后的表达模式在空间上应该更加连续和一致。
特征归因的具体机制
特征归因(feature attribution)是SpCAST可解释性能力的核心。其基本思路是:对于一个给定的输入样本(某个空间位置的基因表达向量)和一个给定的输出类别(某种细胞类型),计算每个输入特征(每个基因)的变化如何影响输出概率的变化。
集成梯度方法通过沿一条从基线输入(通常是零向量或输入的平均值)到实际输入的路径,对梯度进行积分来计算归因分数。这个方法满足两个重要的公理:敏感性(如果某个特征的变化导致输出变化,那么该特征的归因分数不为零)和实现不变性(功能等价的模型应该给出相同的归因结果)。
在SpCAST的实践中,特征归因分析的结果可以用来生成"基因重要性排名"。例如,对于星形胶质细胞的预测,模型可能发现GFAP、S100B、AQP4等基因具有很高的归因分数,而管家基因如GAPDH、ACTB的归因分数相对较低。这种信息对于实验生物学家来说是直接可用的——它既验证了模型是否学到了已知的生物学知识,也可能揭示出之前未知的细胞类型标记基因。
基准测试的设计与结果
数据集收集
论文中基准测试的规模是其最重要的贡献之一。作者收集了53个空间转录组数据集,涵盖413,376个空间细胞。这些数据集来自五种不同的技术平台,覆盖了多种组织类型和生物学背景。数据集的多样性和规模使得测试结果具有较强的泛化性意义。
这53个数据集的选择并非随意为之。作者刻意覆盖了从高分辨率成像平台到低分辨率测序平台的技术谱系,使得测试结果能够反映SpCAST在不同数据质量条件下的表现。同时,组织类型的多样性——包括脑组织、肿瘤组织、发育中的胚胎等——也确保了框架的泛化能力得到了充分的检验。
比较方法
SpCAST与多种现有的标签迁移方法进行了比较,包括但不限于前面提到的Tangram、cell2location、SPOTlight等。比较的维度包括注释准确率、运行时间、以及在不同数据稀疏程度下的性能稳定性。
主要结果
测试结果表明,SpCAST在注释准确率上达到了与现有最先进方法相当甚至更优的水平。更值得注意的是,在运行时间方面,SpCAST展示了明显的优势。对于包含数万个细胞的数据集,SpCAST的分析时间可以比某些贝叶斯方法缩短一个数量级。
这种效率优势在实际应用场景中非常重要。空间转录组实验的产出速度越来越快,一个实验室每周可能产出多个大型数据集。如果分析工具的运行时间过长,就会成为整个研究流程的瓶颈。SpCAST的快速分析能力使得研究者能够在更短的时间内完成数据解读,从而加速科学发现的过程。
在不同稀疏程度下的表现
为了评估SpCAST对数据稀疏性的鲁棒性,作者可能进行了不同程度的数据子采样或人为dropout注入实验。结果应该显示,即使在数据质量明显下降的情况下,SpCAST仍能保持相对稳定的注释性能。这种鲁棒性部分归因于KAN网络对非线性关系的建模能力——即使输入数据中存在大量缺失值,网络仍能从非零基因的表达模式中提取有用的信号。
跨物种标签迁移
生物学背景
在生物医学研究中,小鼠是最常用的模式动物之一。大量的生物学知识——从发育过程中的细胞类型组成到疾病状态下的基因表达变化——最初都是在小鼠模型中获得的。当研究者转向人类组织的研究时,一个自然的需求是:能否利用小鼠的scRNA-seq参考数据来注释人类的空间转录组数据?
这个问题的复杂性在于,小鼠和人类虽然共享大部分同源基因,但两个物种之间基因表达的调控网络存在显著差异。同一类型的细胞在小鼠和人类中的标记基因集合可能不完全重叠,基因表达的绝对水平和相对比例也可能不同。传统的基于直系同源基因映射的方法在这种情况下可能表现不佳。
SpCAST的跨物种能力
论文中的案例研究显示,SpCAST在跨物种标签迁移场景下能够给出合理的结果。这一能力可能得益于KAN网络的非线性建模特性:网络在训练过程中学到的不仅是基因表达到细胞类型的简单映射,而是基因表达空间的更深层结构。这种结构在不同物种之间可能具有一定的保守性,使得模型能够跨越物种边界进行知识迁移。
当然,跨物种迁移的准确率通常低于同物种内的迁移,这是可以预期的。但即使准确率有所下降,跨物种迁移仍然可以提供有价值的初步注释,为后续的人工审核和实验验证提供一个起点。
空间基因表达重建
dropout问题的严重性
在基于测序的空间转录组数据中,dropout是一个普遍存在的问题。一个空间位置上的细胞可能表达数千个基因,但由于分子捕获效率的限制,实际检测到的可能只有几百到一千多个。这些缺失的基因表达值不是随机丢失的——低表达的基因更容易发生dropout,这使得数据中存在系统性的偏差。
dropout的存在不仅影响了单个基因的表达估计,还扭曲了基因之间的相关性结构。在原始数据中,由于dropout的随机性,两个本应高度共表达的基因可能在很多细胞中同时出现零值,导致它们的估计相关性低于真实值。这种偏差会传递到下游的细胞类型注释中,影响注释的准确性。
重建的策略
SpCAST利用其学到的参考数据与空间数据之间的映射关系来推断缺失的基因表达值。具体来说,模型知道某种细胞类型的典型表达谱应该是什么样的,因此可以用这个先验知识来"填补"空间数据中的空白。重建后的表达模式在空间上应该更加连续和符合生物学预期。
论文报告称,SpCAST重建的基因表达模式在空间一致性(spatial concordance)方面有所改进。这意味着重建后的基因表达在组织空间中的分布更加符合已知的解剖结构和生物学预期。例如,某个应该在特定脑区或细胞层中高表达的基因,在重建后的表达图谱中确实显示出了更加清晰的空间梯度。
重建结果的生物学验证
空间表达重建的质量最终需要通过独立实验来验证。免疫荧光染色、原位杂交等技术可以提供特定基因在组织中的空间表达模式的"ground truth"。如果SpCAST重建的表达模式与这些独立验证的结果一致,就可以增强用户对框架可靠性的信心。
标记基因候选优先级排序
标记基因的重要性
标记基因(marker genes)是区分不同细胞类型的基因,它们的表达水平在特定细胞类型中显著高于其他类型。准确识别标记基因对于实验生物学至关重要,因为标记基因不仅是细胞类型鉴定的分子依据,还可以直接用于下游的实验设计:免疫荧光共定位、流式细胞术分选、CRISPR筛选的靶点选择等。
SpCAST的优先级排序机制
通过特征归因分析,SpCAST能够为每种细胞类型生成一个基因重要性排名。排名靠前的基因就是模型认为最能区分该细胞类型的基因。这些基因不一定都是已知的标记基因——其中可能包含之前未被发现的细胞类型特异性基因,这些新发现的标记基因候选可能成为后续实验研究的有趣方向。
这种优先级排序的价值在于它将计算分析与实验验证直接对接起来。研究者不需要自己手动筛选候选基因,SpCAST已经根据模型学到的信息提供了一个经过排序的候选列表。虽然列表中的基因仍然需要实验验证,但这个排序已经将搜索空间缩小了几个数量级。
方法的局限性与适用范围
参考数据质量的依赖
SpCAST和其他所有标签迁移方法一样,其性能上限由参考数据的质量决定。如果scRNA-seq参考数据的细胞类型注释不准确、不完整或粒度不够,那么迁移到空间数据上的标签也会继承这些问题。"垃圾进,垃圾出"的原则在这里同样适用。
KAN架构的挑战
KAN网络虽然在参数效率和可解释性方面有优势,但也面临一些独特的挑战。样条函数的参数化需要仔细选择节点数量和样条阶数,这些超参数的选择可能对模型的最终性能产生显著影响。此外,KAN的训练过程可能对初始化敏感,在某些数据分布上可能需要更多的超参数调优。
细胞类型定义的粒度
标签迁移方法的另一个根本性限制是:它只能迁移参考数据中存在的细胞类型。如果空间数据中存在参考数据未涵盖的新细胞类型,或者空间数据中的细胞处于参考数据中未被捕获的过渡状态,那么标签迁移的结果就会出现偏差。这种情况下,模型可能会将这些"未知"细胞强行归类为已知类型中的某一个,导致注释错误。
因果关系与统计相关性
特征归因提供的基因重要性分数反映的是统计相关性而非因果关系。一个基因对细胞类型预测有很高的归因分数,可能是因为它确实是该细胞类型的功能标记基因,也可能是因为它与其他真正的标记基因高度共表达。区分这两种情况需要额外的实验验证。
与同类方法的比较视角
在空间转录组学的分析工具箱中,SpCAST填补了一个特定的生态位:它特别适合需要快速分析和可解释结果的场景。与基于深度学习的方法(如Tangram)相比,SpCAST提供了更透明的决策过程;与贝叶斯方法(如cell2location)相比,SpCAST的计算效率更高;与线性方法(如SPOTlight)相比,SpCAST能够更好地处理非线性的平台效应。
但没有一种方法是万能的。对于数据质量很高、细胞类型组成相对简单的数据集,更简单的线性方法可能就足够了,而KAN的额外复杂性可能带来不必要的计算开销。对于需要严格的不确定性量化的应用,贝叶斯方法可能仍然是首选,因为它们能够提供后验分布而不仅仅是点估计。
技术细节:KAN在生物信息学中的适用性
Kolmogorov-Arnold网络在生物信息学领域的应用还处于非常早期的阶段,SpCAST是为数不多的尝试之一。从更广泛的角度看,基因表达数据具有几个适合KAN建模的特点:
第一,基因表达值通常是连续的非负实数,这与KAN中B样条函数的定义域和值域自然匹配。第二,基因之间的调控关系是非线性的,阈值效应、饱和效应、协同效应等在生物学中普遍存在,这些非线性关系正是KAN的优势所在。第三,基因表达数据的维度虽然很高,但有效的信息通常集中在少数维度上(即大多数基因的表达变化与特定的细胞类型或状态无关),KAN的参数效率使得它能够专注于这些有信息量的维度。
然而,基因表达数据也有一些对KAN不太友好的特点。高维度和高噪声是scRNA-seq数据的固有特征,而KAN的样条函数在高维稀疏数据上可能面临"维度灾难"的问题。此外,基因表达数据中存在大量的技术噪声(如dropout、扩增偏差),这些噪声可能干扰样条函数的学习,需要通过正则化或其他手段来缓解。
对该领域的潜在影响
如果SpCAST的性能在更大范围的独立数据集上得到验证,它可能对空间转录组学分析领域产生几方面的影响。
首先,它可能推动KAN在其他组学数据分析任务中的应用,比如单细胞ATAC-seq数据的细胞类型注释、多组学数据整合、以及空间蛋白质组学数据分析。其次,SpCAST强调的可解释性可能提高整个领域对模型透明度的要求——当一个框架能够提供基因水平的决策解释时,那些只输出标签和分数的"黑箱"方法可能面临更大的竞争压力。第三,SpCAST的计算效率优势可能使得空间转录组学分析更加民主化——不是每个实验室都拥有大型计算集群,快速的分析工具可以降低入门门槛。
此外,SpCAST内置的空间表达重建和标记基因排序功能,使得单个工具能够覆盖从注释到验证指导的完整分析链条。对于没有专门生物信息学团队的实验生物学实验室来说,这种一站式的设计可能特别有吸引力。
实际使用建议
对于考虑使用SpCAST的研究者,以下几点值得注意:
参考数据的选择至关重要。理想情况下,参考scRNA-seq数据应该来自与空间数据相同或相近的组织类型,包含尽可能完整的细胞类型覆盖。如果可能的话,使用来自同一实验室或同一研究项目的参考数据可以减少批次效应的影响。
模型的超参数调优可能需要一些耐心。KAN网络的样条参数(节点数量、样条阶数、正则化强度)可能需要根据数据集的特点进行调整。论文中应该提供了默认参数,但在实际应用中,交叉验证可以帮助确定最优参数组合。
特征归因的结果需要谨慎解读。高归因分数的基因是值得关注的候选标记基因,但它们需要通过独立实验来验证。此外,归因分析可能对输入数据的预处理方式敏感——不同的归一化或标准化方法可能产生不同的基因排名。
结语
SpCAST的出现代表了空间转录组学分析工具进化的一个有趣方向。它不是简单地用更大的模型或更多的数据来提升性能,而是选择了一种在数学上更有根据的网络架构来重新构建参考引导的空间数据注释问题。Kolmogorov-Arnold表示定理保证了这种架构的理论表达能力,而B样条参数化则提供了实际操作中的灵活性和可解释性。
在空间组学数据量快速增长、分析需求日益多样化的今天,一个既能保持竞争力的准确率、又能提供透明的决策过程、同时还足够快速的分析框架,确实具有实际的价值。SpCAST是否能在更广泛的场景中兑现这些承诺,还有待时间和更多独立评估的检验。但至少,它为这个领域提供了一个值得认真考虑的新选项。对于那些在日常研究中需要频繁处理空间转录组数据、又希望理解模型行为而非盲目接受预测结果的实验室来说,SpCAST值得放入他们的工具箱中试一试。
论文信息
- 标题:SpCAST: Decoding spatial transcriptomics at single-cell resolution with fast and interpretable analysis
- 作者:Yiyang Zhang, Bokai Zhao, Xiaoru Zhang, Zongchang Du, Xiaojuan Sun, Tianzi Jiang
- arXiv ID:2605.26904v1
- 发布日期:2026年5月26日
- 领域分类:q-bio.CB(细胞生物学)
- arXiv链接:https://arxiv.org/abs/2605.26904
评论