OCOO-T：用最简洁的架构预测细胞对扰动的转录响应

Q: 一粒药扔进细胞里，基因表达会怎样变化？

>一粒药扔进细胞里，基因表达会怎样变化？设想一个场景：你是一名药物研发人员，手里有一种全新的候选化合物。你把它加到培养皿中的细胞里，想知道哪些基因会因此被激活、哪些会沉默、表达水平会涨到多少、降到多少。传统做法是做实验——把药加进去，等细胞反应，然后用单细胞RNA测序（scRNA-seq）逐个细胞地读取全转录组数据。这个过程贵、慢，而且每次只能测有限的条件组合。 如果能用计算机模拟这一切呢？给模型一个细胞的当前状态，告诉它"我对这个细胞施加了什么扰动"，模型就直接输出扰动后的基因表达谱。这就是AI虚拟细胞（AI Virtual Cell，AIVC）的核心愿景之一。 2026

Q: 扰动预测为什么难？

>扰动预测为什么难？单细胞转录组扰动预测的核心问题是：给定一个细胞在扰动前的基因表达向量（通常包含两万多个基因），以及一个扰动描述（比如敲除某个基因、加入某种药物、添加某种细胞因子），预测扰动后每个基因的表达值。 这件事的难度来自多个方面： 维度爆炸。 人类基因组编码约两万个蛋白质编码基因，加上非编码RNA，单细胞转录组的特征空间轻松超过两万维。在这个高维空间里，一个细胞的状态就是一个两万维向量。扰动的效果是在这个空间里的一次位移——但位移的方向和幅度取决于细胞的初始状态、扰动的类型、剂量，甚至细胞的类型。 上下文依赖。 同一个基因敲除，在T细胞和B细胞中引起的转录变化可能完全不同。同一种药物

一粒药扔进细胞里，基因表达会怎样变化？

设想一个场景：你是一名药物研发人员，手里有一种全新的候选化合物。你把它加到培养皿中的细胞里，想知道哪些基因会因此被激活、哪些会沉默、表达水平会涨到多少、降到多少。传统做法是做实验——把药加进去，等细胞反应，然后用单细胞RNA测序（scRNA-seq）逐个细胞地读取全转录组数据。这个过程贵、慢，而且每次只能测有限的条件组合。

如果能用计算机模拟这一切呢？给模型一个细胞的当前状态，告诉它"我对这个细胞施加了什么扰动"，模型就直接输出扰动后的基因表达谱。这就是AI虚拟细胞（AI Virtual Cell，AIVC）的核心愿景之一。

2026年6月11日，来自arXiv的一篇新论文提出了OCOO-T——一个基于流匹配（flow matching）的极简虚拟细胞模型，专门用于预测单细胞转录组对各类扰动的响应。论文作者是Danning Jiang、Zheming An、Yalong Zhao和Lipeng Lai。OCOO-T在Tahoe100M、Replogle和PBMC三大基准测试集上取得了当前最优性能，同时保持了令人惊讶的架构简洁性。

扰动预测为什么难？

单细胞转录组扰动预测的核心问题是：给定一个细胞在扰动前的基因表达向量（通常包含两万多个基因），以及一个扰动描述（比如敲除某个基因、加入某种药物、添加某种细胞因子），预测扰动后每个基因的表达值。

这件事的难度来自多个方面：

维度爆炸。 人类基因组编码约两万个蛋白质编码基因，加上非编码RNA，单细胞转录组的特征空间轻松超过两万维。在这个高维空间里，一个细胞的状态就是一个两万维向量。扰动的效果是在这个空间里的一次位移——但位移的方向和幅度取决于细胞的初始状态、扰动的类型、剂量，甚至细胞的类型。

上下文依赖。 同一个基因敲除，在T细胞和B细胞中引起的转录变化可能完全不同。同一种药物，剂量不同，效应也不同。模型必须同时理解细胞的身份和扰动的具体参数。

数据稀疏。 尽管近年来单细胞数据集规模迅速膨胀——Tahoe100M数据集就包含超过一亿个细胞——但扰动条件的组合空间是天文数字。基因敲除实验通常只覆盖几百到几千个基因，药物筛选也只覆盖有限的化合物库。模型必须从有限的扰动观测中泛化到未见过的扰动条件。

噪声与批次效应。 单细胞测序数据天然噪声大，不同实验室、不同平台、不同时间采集的数据之间存在系统性差异。模型需要对这些技术变异保持鲁棒。

已有方法的"重"与"繁"

在OCOO-T之前，这个领域已经涌现出一批有影响力的方法。了解它们的设计哲学，才能理解OCOO-T的"减法"做得有多彻底。

GEARS（2023） 使用图神经网络（GNN）来编码基因之间的相互作用关系，然后用一个小型Transformer来预测扰动后的表达变化。它需要预先构建基因调控网络作为先验知识，这增加了数据预处理的复杂度，也引入了对已知生物学知识的依赖——如果你要研究的扰动涉及一个功能未知的基因，GEARS的图结构就可能失效。

scGPT（2023） 是一个大规模预训练的单细胞基础模型，使用了类似GPT的自回归架构。它在海量单细胞数据上预训练，然后微调用于扰动预测。scGPT的参数量大，训练成本高，而且其自回归解码方式并不是为连续值预测天然设计的。

BioLLM / CPA（2023） 等方法使用变分自编码器（VAE）将细胞状态压缩到低维潜在空间，再在潜在空间中预测扰动效果。这种"压缩-预测"的两阶段框架引入了信息瓶颈——压缩过程中不可避免地丢失信息，而这些丢失的信息可能恰好对某些扰动的预测至关重要。

TIGON（2024） 和 PriorCell（2025） 等方法引入了更复杂的架构组件——层次化VAE、专用的Transformer编码器-解码器对、基因交互先验模块。这些设计提高了特定场景下的预测精度，但也使得模型越来越重、越来越难以复现和扩展。

归纳起来，现有方法普遍依赖以下一种或多种"额外组件"：

辅助细胞状态编码器（VAE、自编码器）
基因调控网络或知识图谱作为先验
专用的Transformer编码器-解码器架构
层次化的潜在空间建模

OCOO-T的作者问了一个简单的问题：这些东西真的都需要吗？

OCOO-T的设计哲学：做减法

OCOO-T的全称是"OCOO-T"（论文中未展开缩写），其核心设计理念可以用一句话概括：把扰动预测当作一个连续时间的去噪过程，用最朴素的Transformer来处理。

具体来说，OCOO-T做了以下几件事：

1. 直接在原始表达空间操作

不压缩、不编码、不降维。OCOO-T直接拿细胞的原始基因表达向量（连续值，log-normalized后的浮点数）作为输入。一个典型的输入就是大约两万个浮点数，每个对应一个基因的表达水平。

这意味着模型不需要一个额外的编码器来把细胞"翻译"成某种潜在表示。细胞就是它自己——一个高维向量。

2. 流匹配框架

OCOO-T采用流匹配（flow matching）作为生成框架。流匹配是扩散模型（diffusion model）的一种变体，但更简洁：它学习一个向量场，将简单的噪声分布（通常是高斯分布）"流动"到目标数据分布。

在扰动预测的语境下，这个过程可以这样理解：

从一个高斯噪声向量出发（维度与基因数相同）
模型学习如何逐步去噪，最终生成扰动后的基因表达谱
去噪的条件是：扰动类型、剂量、细胞类型等上下文信息

关键在于，流匹配是一个连续时间的框架，不需要像离散扩散那样定义复杂的噪声调度。整个去噪过程就是一个常微分方程（ODE）的积分。

3. 朴素Transformer栈

OCOO-T没有使用编码器-解码器架构，而是用了一个"vanilla"（朴素、原味）的Transformer栈。所谓"vanilla"，就是最基本的Transformer结构——多头自注意力、前馈网络、层归一化，没有花哨的变体。

扰动信息通过两种方式注入模型：

自适应层归一化（Adaptive Layer Normalization，AdaLN）。 扰动类型和剂量信息被编码为一个条件向量，用来调制Transformer每一层的缩放和偏移参数。这种技术在条件生成模型中被广泛使用（比如DiT——Diffusion Transformer），它的好处是条件信号可以"渗透"到模型的每一层，而不是只在输入端注入一次。

上下文标记（In-Context Tokens）。 细胞类型和扰动信息被编码为额外的标记（tokens），拼接在基因表达标记的序列前面。这样，Transformer的自注意力机制可以自然地让每个基因标记"看到"上下文信息。

4. Patching机制处理长序列

两万个基因标记加上若干上下文标记，序列长度超过两万。标准Transformer的自注意力计算复杂度是序列长度的平方，直接处理这么长的序列计算代价很高。

OCOO-T引入了一个简单的patching策略：把基因表达向量分成固定大小的块（patches），每个块作为一个token输入Transformer。这样，序列长度从两万降低到几百，计算量大幅下降。推理时再通过"解块"（depatching）操作还原为完整的表达向量。

这个设计借鉴了Vision Transformer（ViT）中将图像分成patch的思想——同样是把高维输入切分成固定大小的小块，再用Transformer处理。

训练细节与数据

OCOO-T的训练数据来自三个大规模单细胞扰动数据集：

Tahoe100M。 这是目前最大的单细胞扰动筛选数据集之一，包含超过一亿个细胞。数据来源于多种癌细胞系对数百种药物的转录响应。这个数据集的规模使得OCOO-T能够学习到丰富的药物-细胞相互作用模式。

Replogle数据集。 来自Replogle等人2022年的工作，包含在K562和RPE1细胞系中进行的大规模基因敲除（Perturb-seq）实验数据。每个扰动条件对应一个或多个基因的CRISPR敲除。

PBMC数据集。 外周血单核细胞（PBMC）对细胞因子刺激的转录响应数据。这类扰动不同于基因敲除和药物处理，代表了免疫细胞对信号分子的应答。

训练过程中，OCOO-T使用流匹配的目标函数——最小化预测向量场与真实向量场之间的均方误差。优化器使用AdamW，学习率调度采用余弦退火。

值得一提的是，OCOO-T没有使用任何基因调控网络先验、没有预训练阶段、没有辅助损失函数。整个训练流程就是：数据进去，流匹配损失出来，反向传播，更新参数。

实验结果：简洁不等于性能妥协

OCOO-T在三个基准测试集上与多种现有方法进行了对比，结果令人印象深刻。

Tahoe100M基准

在Tahoe100M上，OCOO-T的预测精度超过了所有对比方法，包括基于GNN的GEARS、基于大规模预训练的scGPT、以及多种VAE变体。特别值得注意的是，OCOO-T在"零样本"泛化场景下——即对训练中未见过的药物或细胞类型进行预测——也展现出良好的泛化能力。

Replogle基准

在基因敲除数据集上，OCOO-T同样取得了最优或接近最优的性能。基因敲除预测的难点在于：敲除一个基因会影响其下游调控的整个基因网络，而这个网络在不同细胞类型中可能有截然不同的拓扑结构。OCOO-T不需要显式地建模这些网络，而是通过大量数据隐式地学习了这些调控关系。

PBMC基准

在细胞因子刺激数据集上，OCOO-T的表现也达到了竞争水平。这说明流匹配框架对不同类型的扰动（基因敲除、药物处理、细胞因子刺激）都有良好的适应性。

可扩展性

OCOO-T的patching机制使其能够高效处理长转录组。在实验中，作者展示了随着patch大小和模型容量的增加，OCOO-T的性能可以进一步提升，而计算成本的增长是可控的。这种可扩展性对未来的应用至关重要——随着单细胞测序技术从RNA扩展到多组学（蛋白质组、表观基因组），输入维度将进一步膨胀，一个能够优雅地处理长序列的模型将更加重要。

流匹配在生物领域的意义

OCOO-T选择流匹配作为生成框架，这本身就是一个值得深入讨论的设计决策。

流匹配是近年来生成建模领域的重要进展，由Lipman等人在2022年提出。与传统的扩散模型不同，流匹配不需要预定义的噪声调度，而是直接学习一个概率路径的向量场。这使得训练更稳定、推理更高效。

在图像生成领域，流匹配已经被证明可以生成与扩散模型相当甚至更好的样本，同时训练和推理速度更快。但将流匹配应用于生物数据——特别是单细胞转录组数据——是一个相对新颖的尝试。

单细胞数据与图像数据有几个本质区别：

没有空间结构。 图像有二维网格结构，相邻像素之间有强相关性。基因表达数据虽然可以按基因之间的调控关系排列，但本质上是一个无序的集合。OCOO-T通过让Transformer自己学习基因之间的关系（通过自注意力），避免了人为指定基因排列顺序的问题。

数值连续且量级差异大。 像素值通常在0-255或0-1之间，而基因表达值的范围可以从0到几万（取决于高表达基因）。流匹配处理连续值的天然能力在这里成为优势——它不需要对数据做离散化或特殊的量化处理。

生物学约束。 基因表达值必须是非负的，而且在扰动前后，细胞的整体转录状态通常不会发生剧烈的变化（虽然单个基因的表达可能大幅波动）。这些生物学先验可以作为归纳偏置融入模型，但OCOO-T选择不显式编码这些约束，而是让模型从数据中学习。

架构简洁性的深层价值

在当前AI研究的大背景下，OCOO-T的"减法"设计有超越性能数字的深层意义。

可复现性。 复杂的多模块架构往往意味着更多的超参数、更多的训练技巧、更多的实现细节。当一个模型同时包含GNN、VAE、Transformer编码器和解码器时，即使论文提供了代码，其他研究者精确复现结果的难度也会显著增加。OCOO-T的架构足够简单，可以被一个有经验的研究者在几天内从头实现。

可解释性。 虽然Transformer本身并不是一个"可解释"的模型，但单一架构比多模块系统更容易进行分析。研究者可以通过注意力图谱来理解模型如何利用上下文信息、哪些基因在预测中起了关键作用。如果模型有多个异构组件，这种分析会变得更加困难。

可扩展性。 简洁的架构更容易扩展到更大的数据集和更高的维度。当输入从两万维扩展到十万维（多组学场景）时，OCOO-T只需要调整patch大小和模型容量，而不需要重新设计整个架构。

科学启示。 OCOO-T的实验结果本身就是一个科学发现：它表明，至少在这个任务上，基因调控网络先验、层次化潜在空间、专用编码器-解码器等额外组件都不是必要的。这迫使我们思考：这些组件到底学到了什么？它们提供的信息是否已经被数据本身所蕴含？如果一个足够强大的通用架构能从数据中自动学习这些模式，那么显式编码生物学知识的价值何在？

局限性与未来方向

当然，OCOO-T并非没有局限。

基因调控关系的隐式学习。 虽然OCOO-T不使用显式的基因调控网络，但这意味着它必须从数据中隐式地学习这些关系。对于数据中出现频率低的基因或罕见的扰动条件，隐式学习的效果可能不如显式建模。

时间维度的缺失。 当前的OCOO-T预测的是扰动后某一时间点的"快照"，而不是扰动后基因表达随时间的动态变化。实际的生物系统中，不同基因对同一扰动的响应时间差异很大——有的基因在几分钟内就被激活，有的需要几小时甚至几天。将OCOO-T扩展到时间序列预测是一个自然的下一步。

多组学整合。 当前模型只处理转录组数据。真正的"虚拟细胞"需要同时模拟蛋白质组、代谢组、表观基因组等多层次的分子状态。OCOO-T的架构是否能自然地扩展到多组学场景，还有待验证。

因果推理能力。 OCOO-T本质上是一个统计预测模型——它学习的是"给定扰动条件，最可能的表达谱是什么"，而不是"扰动X通过哪些因果路径导致了基因Y的变化"。对于药物机制研究和靶点发现这类需要因果推理的任务，纯预测模型可能不够。

单细胞扰动预测的赛道格局

OCOO-T的出现，让单细胞扰动预测这个快速发展的赛道变得更加有趣。

过去三年，这个领域经历了从"能不能做到"到"怎么做得更好"的转变。早期的方法（如cVAE、Linear Model）只能做粗粒度的预测，现在的模型已经可以精确到单个基因的表达水平。

同时，数据集的规模也在快速增长。从早期的几千个细胞，到Replogle的数十万个细胞，再到Tahoe100M的一亿个细胞，数据规模的扩大为更强大的模型提供了燃料。OCOO-T的成功证明，当数据量足够大时，简单的架构也能胜过复杂的架构——这与大语言模型领域的发现是一致的。

商业层面，多家公司正在押注AI虚拟细胞赛道。包括Arc Institute（Tahoe100M的发起方）、Genentech、Google DeepMind等机构都在投入大量资源。OCOO-T这样开源的、简洁的基线模型，为这个领域的研究者提供了一个强有力的起点。

技术细节补充：AdaLN与上下文标记

对于希望深入理解OCOO-T技术实现的读者，这里补充两个关键设计的细节。

自适应层归一化（AdaLN）

标准的Layer Normalization会对输入特征做零均值、单位方差的归一化，然后通过可学习的缩放参数γ和偏移参数β进行仿射变换：

LN(x) = γ · (x - μ) / σ + β

AdaLN的做法是：γ和β不再是固定的可学习参数，而是由条件信息（扰动类型、剂量等）动态生成的。具体来说，条件向量c通过一个小的全连接网络映射为γ和β：

γ = MLP(c)
β = MLP(c)

这样，每一层的归一化行为都会根据当前的扰动条件自动调整。在OCOO-T中，AdaLN被应用在Transformer的每一层，使得扰动信息能够深层渗透到模型中。

上下文标记

在输入序列的开头，OCOO-T插入若干特殊的标记，编码以下信息：

细胞类型标记： 告诉模型当前处理的是哪种细胞（如K562、Jurkat、原代T细胞等）
扰动标记： 编码扰动的类型（基因敲除的靶标、药物的名称等）
剂量标记： 编码扰动的强度

这些标记与基因表达标记一起输入Transformer。由于自注意力机制是全局的，每个基因标记都可以"看到"这些上下文标记，从而在预测时考虑细胞身份和扰动参数。

写在最后

OCOO-T的核心贡献不是某个精巧的技术创新，而是一个有力的实验证明：在单细胞扰动预测这个任务上，数据和简洁的架构设计可能比复杂的归纳偏置更重要。

这让人想起深度学习历史上反复出现的模式——AlexNet、ResNet、GPT，每一次突破性的进展都不是因为加入了更多先验知识，而是因为找到了更好的方式让模型从数据中学习。OCOO-T在单细胞生物学领域重复了这个叙事。

当然，"简洁"不等于"简单"。OCOO-T的设计看似朴素，但每个选择——流匹配框架、AdaLN条件注入、patching机制——都是经过深思熟虑的。正如密斯·凡·德·罗所说："Less is more"，但前提是"less"做到位。

对于有志于进入AI虚拟细胞领域的研究者，OCOO-T是一个理想的起点：代码量小、概念清晰、性能强劲。它提供了一个干净的基线，在此基础上可以探索更多的改进方向——加入时间维度、整合多组学数据、引入因果推理机制。

对于关注AI在生物学中应用的更广泛读者，OCOO-T的故事传递了一个信号：AI虚拟细胞正在从概念走向现实。当模型能够准确预测细胞对任意扰动的响应时，药物研发的范式将被根本性地改变——从"先做实验再理解"转向"先模拟再验证"。

那一天还没到来，但OCOO-T让它又近了一步。

论文信息

标题：OCOO-T: A Simple and Scalable Virtual Cell Model for Transcriptional Perturbation Response Prediction
作者：Danning Jiang, Zheming An, Yalong Zhao, Lipeng Lai
arXiv ID：2606.12838v1
发布日期：2026年6月11日
分类：q-bio.QM, cs.AI, cs.LG, q-bio.GN

OCOO-T：用最简洁的架构预测细胞对扰动的转录响应

一粒药扔进细胞里，基因表达会怎样变化？

扰动预测为什么难？

已有方法的"重"与"繁"

OCOO-T的设计哲学：做减法

1. 直接在原始表达空间操作

2. 流匹配框架

3. 朴素Transformer栈

4. Patching机制处理长序列

训练细节与数据

实验结果：简洁不等于性能妥协

Tahoe100M基准

Replogle基准

PBMC基准

可扩展性

流匹配在生物领域的意义

架构简洁性的深层价值

局限性与未来方向

单细胞扰动预测的赛道格局

技术细节补充：AdaLN与上下文标记

自适应层归一化（AdaLN）

上下文标记

写在最后

常见问题

评论

一粒药扔进细胞里，基因表达会怎样变化？

扰动预测为什么难？

已有方法的"重"与"繁"

OCOO-T的设计哲学：做减法

1. 直接在原始表达空间操作

2. 流匹配框架

3. 朴素Transformer栈

4. Patching机制处理长序列

训练细节与数据

实验结果：简洁不等于性能妥协

Tahoe100M基准

Replogle基准

PBMC基准

可扩展性

流匹配在生物领域的意义

架构简洁性的深层价值

局限性与未来方向

单细胞扰动预测的赛道格局

技术细节补充：AdaLN与上下文标记

自适应层归一化（AdaLN）

上下文标记

写在最后

常见问题

评论

相关推荐

scGTN：用孪生图Transformer网络攻克单细胞RNA测序聚类难题

当注意力不再需要特征：李代数注意力机制的革命性突破

自回归潜扩散造大环肽：PepALD如何用基础模型重新定义多肽药物设计

自回归潜扩散造大环肽：PepALD如何用基础模型重新定义多肽药物设计

MultiMolecule：生物分子序列模型的模块化生态系统，如何重塑RNA、DNA与蛋白质研究的基础设施