返回首页

OCOO-T:用最简洁的架构预测细胞对扰动的转录响应

一粒药扔进细胞里,基因表达会怎样变化?

设想一个场景:你是一名药物研发人员,手里有一种全新的候选化合物。你把它加到培养皿中的细胞里,想知道哪些基因会因此被激活、哪些会沉默、表达水平会涨到多少、降到多少。传统做法是做实验——把药加进去,等细胞反应,然后用单细胞RNA测序(scRNA-seq)逐个细胞地读取全转录组数据。这个过程贵、慢,而且每次只能测有限的条件组合。

如果能用计算机模拟这一切呢?给模型一个细胞的当前状态,告诉它"我对这个细胞施加了什么扰动",模型就直接输出扰动后的基因表达谱。这就是虚拟细胞(AI Virtual Cell,AIVC)的核心愿景之一。

2026年6月11日,来自的一篇新论文提出了OCOO-T——一个基于流匹配(flow matching)的极简虚拟细胞模型,专门用于预测单细胞转录组对各类扰动的响应。论文作者是Danning Jiang、Zheming An、Yalong Zhao和Lipeng Lai。OCOO-T在Tahoe100M、Replogle和PBMC三大基准测试集上取得了当前最优性能,同时保持了令人惊讶的架构简洁性。


扰动预测为什么难?

单细胞转录组扰动预测的核心问题是:给定一个细胞在扰动前的基因表达向量(通常包含两万多个基因),以及一个扰动描述(比如敲除某个基因、加入某种药物、添加某种细胞因子),预测扰动后每个基因的表达值。

这件事的难度来自多个方面:

维度爆炸。 人类基因组编码约两万个蛋白质编码基因,加上非编码RNA,单细胞转录组的特征空间轻松超过两万维。在这个高维空间里,一个细胞的状态就是一个两万维向量。扰动的效果是在这个空间里的一次位移——但位移的方向和幅度取决于细胞的初始状态、扰动的类型、剂量,甚至细胞的类型。

上下文依赖。 同一个基因敲除,在T细胞和B细胞中引起的转录变化可能完全不同。同一种药物,剂量不同,效应也不同。模型必须同时理解细胞的身份和扰动的具体参数。

数据稀疏。 尽管近年来单细胞数据集规模迅速膨胀——Tahoe100M数据集就包含超过一亿个细胞——但扰动条件的组合空间是天文数字。基因敲除实验通常只覆盖几百到几千个基因,药物筛选也只覆盖有限的化合物库。模型必须从有限的扰动观测中泛化到未见过的扰动条件。

噪声与批次效应。 单细胞测序数据天然噪声大,不同实验室、不同平台、不同时间采集的数据之间存在系统性差异。模型需要对这些技术变异保持鲁棒。


已有方法的"重"与"繁"

在OCOO-T之前,这个领域已经涌现出一批有影响力的方法。了解它们的设计哲学,才能理解OCOO-T的"减法"做得有多彻底。

GEARS(2023) 使用图神经网络(GNN)来编码基因之间的相互作用关系,然后用一个小型来预测扰动后的表达变化。它需要预先构建基因调控网络作为先验知识,这增加了数据预处理的复杂度,也引入了对已知生物学知识的依赖——如果你要研究的扰动涉及一个功能未知的基因,GEARS的图结构就可能失效。

scGPT(2023) 是一个大规模预训练的单细胞基础模型,使用了类似的自回归架构。它在海量单细胞数据上预训练,然后微调用于扰动预测。scGPT的参数量大,训练成本高,而且其自回归解码方式并不是为连续值预测天然设计的。

BioLLM / CPA(2023) 等方法使用变分自编码器(VAE)将细胞状态压缩到低维潜在空间,再在潜在空间中预测扰动效果。这种"压缩-预测"的两阶段框架引入了信息瓶颈——压缩过程中不可避免地丢失信息,而这些丢失的信息可能恰好对某些扰动的预测至关重要。

TIGON(2024)PriorCell(2025) 等方法引入了更复杂的架构组件——层次化VAE、专用的Transformer编码器-解码器对、基因交互先验模块。这些设计提高了特定场景下的预测精度,但也使得模型越来越重、越来越难以复现和扩展。

归纳起来,现有方法普遍依赖以下一种或多种"额外组件":

  • 辅助细胞状态编码器(VAE、自编码器)
  • 基因调控网络或知识图谱作为先验
  • 专用的Transformer编码器-解码器架构
  • 层次化的潜在空间建模

OCOO-T的作者问了一个简单的问题:这些东西真的都需要吗?


OCOO-T的设计哲学:做减法

OCOO-T的全称是"OCOO-T"(论文中未展开缩写),其核心设计理念可以用一句话概括:把扰动预测当作一个连续时间的去噪过程,用最朴素的Transformer来处理。

具体来说,OCOO-T做了以下几件事:

1. 直接在原始表达空间操作

不压缩、不编码、不降维。OCOO-T直接拿细胞的原始基因表达向量(连续值,log-normalized后的浮点数)作为输入。一个典型的输入就是大约两万个浮点数,每个对应一个基因的表达水平。

这意味着模型不需要一个额外的编码器来把细胞"翻译"成某种潜在表示。细胞就是它自己——一个高维向量。

2. 流匹配框架

OCOO-T采用流匹配(flow matching)作为生成框架。流匹配是扩散模型(diffusion model)的一种变体,但更简洁:它学习一个向量场,将简单的噪声分布(通常是高斯分布)"流动"到目标数据分布。

在扰动预测的语境下,这个过程可以这样理解:

  • 从一个高斯噪声向量出发(维度与基因数相同)
  • 模型学习如何逐步去噪,最终生成扰动后的基因表达谱
  • 去噪的条件是:扰动类型、剂量、细胞类型等上下文信息

关键在于,流匹配是一个连续时间的框架,不需要像离散扩散那样定义复杂的噪声调度。整个去噪过程就是一个常微分方程(ODE)的积分。

3. 朴素Transformer栈

OCOO-T没有使用编码器-解码器架构,而是用了一个"vanilla"(朴素、原味)的Transformer栈。所谓"vanilla",就是最基本的Transformer结构——多头自注意力、前馈网络、层归一化,没有花哨的变体。

扰动信息通过两种方式注入模型:

自适应层归一化(Adaptive Layer Normalization,AdaLN)。 扰动类型和剂量信息被编码为一个条件向量,用来调制Transformer每一层的缩放和偏移参数。这种技术在条件生成模型中被广泛使用(比如DiT——Diffusion Transformer),它的好处是条件信号可以"渗透"到模型的每一层,而不是只在输入端注入一次。

上下文标记(In- )。 细胞类型和扰动信息被编码为额外的标记(tokens),拼接在基因表达标记的序列前面。这样,Transformer的自注意力机制可以自然地让每个基因标记"看到"上下文信息。

4. Patching机制处理长序列

两万个基因标记加上若干上下文标记,序列长度超过两万。标准Transformer的自注意力计算复杂度是序列长度的平方,直接处理这么长的序列计算代价很高。

OCOO-T引入了一个简单的patching策略:把基因表达向量分成固定大小的块(patches),每个块作为一个token输入Transformer。这样,序列长度从两万降低到几百,计算量大幅下降。推理时再通过"解块"(depatching)操作还原为完整的表达向量。

这个设计借鉴了Vision Transformer(ViT)中将图像分成patch的思想——同样是把高维输入切分成固定大小的小块,再用Transformer处理。


训练细节与数据

OCOO-T的训练数据来自三个大规模单细胞扰动数据集:

Tahoe100M。 这是目前最大的单细胞扰动筛选数据集之一,包含超过一亿个细胞。数据来源于多种癌细胞系对数百种药物的转录响应。这个数据集的规模使得OCOO-T能够学习到丰富的药物-细胞相互作用模式。

Replogle数据集。 来自Replogle等人2022年的工作,包含在K562和RPE1细胞系中进行的大规模基因敲除(Perturb-seq)实验数据。每个扰动条件对应一个或多个基因的CRISPR敲除。

PBMC数据集。 外周血单核细胞(PBMC)对细胞因子刺激的转录响应数据。这类扰动不同于基因敲除和药物处理,代表了免疫细胞对信号分子的应答。

训练过程中,OCOO-T使用流匹配的目标函数——最小化预测向量场与真实向量场之间的均方误差。优化器使用AdamW,学习率调度采用余弦退火。

值得一提的是,OCOO-T没有使用任何基因调控网络先验、没有预训练阶段、没有辅助损失函数。整个训练流程就是:数据进去,流匹配损失出来,反向传播,更新参数。


实验结果:简洁不等于性能妥协

OCOO-T在三个基准测试集上与多种现有方法进行了对比,结果令人印象深刻。

Tahoe100M基准

在Tahoe100M上,OCOO-T的预测精度超过了所有对比方法,包括基于GNN的GEARS、基于大规模预训练的scGPT、以及多种VAE变体。特别值得注意的是,OCOO-T在"零样本"泛化场景下——即对训练中未见过的药物或细胞类型进行预测——也展现出良好的泛化能力。

Replogle基准

在基因敲除数据集上,OCOO-T同样取得了最优或接近最优的性能。基因敲除预测的难点在于:敲除一个基因会影响其下游调控的整个基因网络,而这个网络在不同细胞类型中可能有截然不同的拓扑结构。OCOO-T不需要显式地建模这些网络,而是通过大量数据隐式地学习了这些调控关系。

PBMC基准

在细胞因子刺激数据集上,OCOO-T的表现也达到了竞争水平。这说明流匹配框架对不同类型的扰动(基因敲除、药物处理、细胞因子刺激)都有良好的适应性。

可扩展性

OCOO-T的patching机制使其能够高效处理长转录组。在实验中,作者展示了随着patch大小和模型容量的增加,OCOO-T的性能可以进一步提升,而计算成本的增长是可控的。这种可扩展性对未来的应用至关重要——随着单细胞测序技术从RNA扩展到多组学(蛋白质组、表观基因组),输入维度将进一步膨胀,一个能够优雅地处理长序列的模型将更加重要。


流匹配在生物领域的意义

OCOO-T选择流匹配作为生成框架,这本身就是一个值得深入讨论的设计决策。

流匹配是近年来生成建模领域的重要进展,由Lipman等人在2022年提出。与传统的扩散模型不同,流匹配不需要预定义的噪声调度,而是直接学习一个概率路径的向量场。这使得训练更稳定、推理更高效。

在图像生成领域,流匹配已经被证明可以生成与扩散模型相当甚至更好的样本,同时训练和推理速度更快。但将流匹配应用于生物数据——特别是单细胞转录组数据——是一个相对新颖的尝试。

单细胞数据与图像数据有几个本质区别:

没有空间结构。 图像有二维网格结构,相邻像素之间有强相关性。基因表达数据虽然可以按基因之间的调控关系排列,但本质上是一个无序的集合。OCOO-T通过让Transformer自己学习基因之间的关系(通过自注意力),避免了人为指定基因排列顺序的问题。

数值连续且量级差异大。 像素值通常在0-255或0-1之间,而基因表达值的范围可以从0到几万(取决于高表达基因)。流匹配处理连续值的天然能力在这里成为优势——它不需要对数据做离散化或特殊的量化处理。

生物学约束。 基因表达值必须是非负的,而且在扰动前后,细胞的整体转录状态通常不会发生剧烈的变化(虽然单个基因的表达可能大幅波动)。这些生物学先验可以作为归纳偏置融入模型,但OCOO-T选择不显式编码这些约束,而是让模型从数据中学习。


架构简洁性的深层价值

在当前AI研究的大背景下,OCOO-T的"减法"设计有超越性能数字的深层意义。

可复现性。 复杂的多模块架构往往意味着更多的超参数、更多的训练技巧、更多的实现细节。当一个模型同时包含GNN、VAE、Transformer编码器和解码器时,即使论文提供了代码,其他研究者精确复现结果的难度也会显著增加。OCOO-T的架构足够简单,可以被一个有经验的研究者在几天内从头实现。

可解释性。 虽然Transformer本身并不是一个"可解释"的模型,但单一架构比多模块系统更容易进行分析。研究者可以通过注意力图谱来理解模型如何利用上下文信息、哪些基因在预测中起了关键作用。如果模型有多个异构组件,这种分析会变得更加困难。

可扩展性。 简洁的架构更容易扩展到更大的数据集和更高的维度。当输入从两万维扩展到十万维(多组学场景)时,OCOO-T只需要调整patch大小和模型容量,而不需要重新设计整个架构。

科学启示。 OCOO-T的实验结果本身就是一个科学发现:它表明,至少在这个任务上,基因调控网络先验、层次化潜在空间、专用编码器-解码器等额外组件都不是必要的。这迫使我们思考:这些组件到底学到了什么?它们提供的信息是否已经被数据本身所蕴含?如果一个足够强大的通用架构能从数据中自动学习这些模式,那么显式编码生物学知识的价值何在?


局限性与未来方向

当然,OCOO-T并非没有局限。

基因调控关系的隐式学习。 虽然OCOO-T不使用显式的基因调控网络,但这意味着它必须从数据中隐式地学习这些关系。对于数据中出现频率低的基因或罕见的扰动条件,隐式学习的效果可能不如显式建模。

时间维度的缺失。 当前的OCOO-T预测的是扰动后某一时间点的"快照",而不是扰动后基因表达随时间的动态变化。实际的生物系统中,不同基因对同一扰动的响应时间差异很大——有的基因在几分钟内就被激活,有的需要几小时甚至几天。将OCOO-T扩展到时间序列预测是一个自然的下一步。

多组学整合。 当前模型只处理转录组数据。真正的"虚拟细胞"需要同时模拟蛋白质组、代谢组、表观基因组等多层次的分子状态。OCOO-T的架构是否能自然地扩展到多组学场景,还有待验证。

因果推理能力。 OCOO-T本质上是一个统计预测模型——它学习的是"给定扰动条件,最可能的表达谱是什么",而不是"扰动X通过哪些因果路径导致了基因Y的变化"。对于药物机制研究和靶点发现这类需要因果推理的任务,纯预测模型可能不够。


单细胞扰动预测的赛道格局

OCOO-T的出现,让单细胞扰动预测这个快速发展的赛道变得更加有趣。

过去三年,这个领域经历了从"能不能做到"到"怎么做得更好"的转变。早期的方法(如cVAE、Linear Model)只能做粗粒度的预测,现在的模型已经可以精确到单个基因的表达水平。

同时,数据集的规模也在快速增长。从早期的几千个细胞,到Replogle的数十万个细胞,再到Tahoe100M的一亿个细胞,数据规模的扩大为更强大的模型提供了燃料。OCOO-T的成功证明,当数据量足够大时,简单的架构也能胜过复杂的架构——这与大语言模型领域的发现是一致的。

商业层面,多家公司正在押注AI虚拟细胞赛道。包括Arc Institute(Tahoe100M的发起方)、Genentech、等机构都在投入大量资源。OCOO-T这样开源的、简洁的基线模型,为这个领域的研究者提供了一个强有力的起点。


技术细节补充:AdaLN与上下文标记

对于希望深入理解OCOO-T技术实现的读者,这里补充两个关键设计的细节。

自适应层归一化(AdaLN)

标准的Layer Normalization会对输入特征做零均值、单位方差的归一化,然后通过可学习的缩放参数γ和偏移参数β进行仿射变换:

LN(x) = γ · (x - μ) / σ + β

AdaLN的做法是:γ和β不再是固定的可学习参数,而是由条件信息(扰动类型、剂量等)动态生成的。具体来说,条件向量c通过一个小的全连接网络映射为γ和β:

γ = MLP(c)
β = MLP(c)

这样,每一层的归一化行为都会根据当前的扰动条件自动调整。在OCOO-T中,AdaLN被应用在Transformer的每一层,使得扰动信息能够深层渗透到模型中。

上下文标记

在输入序列的开头,OCOO-T插入若干特殊的标记,编码以下信息:

  • 细胞类型标记: 告诉模型当前处理的是哪种细胞(如K562、Jurkat、原代T细胞等)
  • 扰动标记: 编码扰动的类型(基因敲除的靶标、药物的名称等)
  • 剂量标记: 编码扰动的强度

这些标记与基因表达标记一起输入Transformer。由于自注意力机制是全局的,每个基因标记都可以"看到"这些上下文标记,从而在预测时考虑细胞身份和扰动参数。


写在最后

OCOO-T的核心贡献不是某个精巧的技术创新,而是一个有力的实验证明:在单细胞扰动预测这个任务上,数据和简洁的架构设计可能比复杂的归纳偏置更重要。

这让人想起深度学习历史上反复出现的模式——AlexNet、ResNet、GPT,每一次突破性的进展都不是因为加入了更多先验知识,而是因为找到了更好的方式让模型从数据中学习。OCOO-T在单细胞生物学领域重复了这个叙事。

当然,"简洁"不等于"简单"。OCOO-T的设计看似朴素,但每个选择——流匹配框架、AdaLN条件注入、patching机制——都是经过深思熟虑的。正如密斯·凡·德·罗所说:"Less is more",但前提是"less"做到位。

对于有志于进入AI虚拟细胞领域的研究者,OCOO-T是一个理想的起点:代码量小、概念清晰、性能强劲。它提供了一个干净的基线,在此基础上可以探索更多的改进方向——加入时间维度、整合多组学数据、引入因果推理机制。

对于关注AI在生物学中应用的更广泛读者,OCOO-T的故事传递了一个信号:AI虚拟细胞正在从概念走向现实。当模型能够准确预测细胞对任意扰动的响应时,药物研发的范式将被根本性地改变——从"先做实验再理解"转向"先模拟再验证"。

那一天还没到来,但OCOO-T让它又近了一步。


论文信息

  • 标题:OCOO-T: A Simple and Scalable Virtual Cell Model for Transcriptional Perturbation Response Prediction
  • 作者:Danning Jiang, Zheming An, Yalong Zhao, Lipeng Lai
  • arXiv ID:2606.12838v1
  • 发布日期:2026年6月11日
  • 分类:q-bio.QM, cs.AI, cs.LG, q-bio.GN

常见问题

一粒药扔进细胞里,基因表达会怎样变化?

>一粒药扔进细胞里,基因表达会怎样变化?设想一个场景:你是一名药物研发人员,手里有一种全新的候选化合物。你把它加到培养皿中的细胞里,想知道哪些基因会因此被激活、哪些会沉默、表达水平会涨到多少、降到多少。传统做法是做实验——把药加进去,等细胞反应,然后用单细胞RNA测序(scRNA-seq)逐个细胞地读取全转录组数据。这个过程贵、慢,而且每次只能测有限的条件组合。 如果能用计算机模拟这一切呢?给模型一个细胞的当前状态,告诉它"我对这个细胞施加了什么扰动",模型就直接输出扰动后的基因表达谱。这就是AI虚拟细胞(AI Virtual Cell,AIVC)的核心愿景之一。 2026

扰动预测为什么难?

>扰动预测为什么难?单细胞转录组扰动预测的核心问题是:给定一个细胞在扰动前的基因表达向量(通常包含两万多个基因),以及一个扰动描述(比如敲除某个基因、加入某种药物、添加某种细胞因子),预测扰动后每个基因的表达值。 这件事的难度来自多个方面: 维度爆炸。 人类基因组编码约两万个蛋白质编码基因,加上非编码RNA,单细胞转录组的特征空间轻松超过两万维。在这个高维空间里,一个细胞的状态就是一个两万维向量。扰动的效果是在这个空间里的一次位移——但位移的方向和幅度取决于细胞的初始状态、扰动的类型、剂量,甚至细胞的类型。 上下文依赖。 同一个基因敲除,在T细胞和B细胞中引起的转录变化可能完全不同。同一种药物

评论