BrainWorld：用结构MRI引导全脑4D fMRI动态生成的全新框架

Q: 为什么结构MRI能帮助功能生成？

>为什么结构MRI能帮助功能生成？这里有一个神经科学的核心事实：大脑的结构和功能密切相关。白质纤维束连接的脑区倾向于形成功能网络；特定脑区的皮层厚度、灰质体积会影响该区域的功能特征。这就像城市交通网络——道路基础设施（结构）决定了车流模式（功能）。一条八车道高速公路和一条乡间小路，即使起点和终点相同，车流模式也会完全不同。 结构-功能关系在多个层次上都成立： 宏观层次：大脑的主要白质束（如弓状束、胼胝体）连接的脑区，通常属于同一个功能网络 中观层次：特定脑回的形态特征（如颞上回的表面积和折叠程度）与语言功能的个体差异相关 微观层次：皮层柱的组织方式、神经元密度等微观结构特征影响局部信息处理效率

引言与TL;DR

想象一下这个场景：医生只需要一次结构MRI扫描，就能「预见」患者未来数分钟的脑功能活动模式。这不是科幻——南方科技大学夏俊峰等人提出的BrainWorld正在让这成为现实。这个模型的核心思路很直觉：结构MRI告诉我们大脑「长什么样」，而fMRI告诉我们大脑「在做什么」，两者之间存在深层联系。BrainWorld把sMRI当作一种「解剖学先验」，注入到扩散模型的去噪过程中，引导生成逼真的4D fMRI时间序列。在22个数据集、覆盖多种人群和脑状态的严格测试中，BrainWorld能生成稳定的400帧fMRI轨迹，并在下游任务中超越现有基线。这项工作为脑功能动态建模、罕见疾病数据增强和多模态脑影像表征学习提供了全新范式。

论文基本信息

标题：BrainWorld: A Structural-Prior-Conditioned Generative Model for Whole-Brain 4D fMRI Dynamics
arXiv链接：https://arxiv.org/abs/2606.17742v1
作者：Junfeng Xia, Wenhao Ye, Junxiang Zhang, Xuanye Pan, Mo Wang*, Quanying Liu*
机构：南方科技大学生物医学工程系、深圳大学生物医学工程学院
发表日期：2026年6月16日
领域：计算机视觉(cs.CV)、计算神经科学(q-bio.NC)
代码：已开源

研究背景与动机：为什么全脑fMRI生成如此重要？

fMRI的本质：大脑的「功能电影」

功能磁共振成像(fMRI)不是一张静态照片，而更像一部不断演化的「大脑电影」。每个时间点，它记录全脑数十万个体素的血氧水平依赖(BOLD)信号，形成一个四维数据体（三维空间+时间维度）。一次10分钟的fMRI扫描可以产生数百帧全脑体积数据，每帧包含约200,000个体素值。这些时间序列蕴含着丰富的脑功能动态信息——哪些脑区在协同工作？认知任务如何在脑网络间传播？疾病如何改变脑功能的时间组织？

fMRI测量的是什么？简言之，当某个脑区的神经元活动增强时，该区域的血流量会增加，带来更多的含氧血红蛋白。fMRI通过检测这种血氧水平依赖(BOLD)信号的变化来间接反映神经活动。虽然BOLD信号的时间分辨率（通常1-2秒）远低于脑电图(EEG)，但它的空间分辨率可以达到毫米级别，能覆盖全脑，这使得fMRI成为研究脑功能空间组织的首选工具。

现有fMRI基础模型的局限

过去几年，脑影像领域涌现了大量「基础模型」——BrainLM、Brain-JEPA、BrainMass、BrainIAC、SwiFT、NeuroSTORM等。这些模型借鉴了NLP和计算机视觉的成功经验，通过掩码重建、对比学习等自监督目标在大规模fMRI数据上预训练。它们在理解大脑活动模式方面取得了显著进展，能够学习到有信息量的脑活动表征，并在多种下游任务上展现出良好的迁移能力。

但这些模型的核心目标是学习表征，而不是生成数据。打个比方：这些模型像一个优秀的「影评人」，能深刻理解电影的结构和主题，但它们不是「导演」，无法创作新的电影。当你需要「预测大脑接下来会做什么」时，表征学习方法就力不从心了。

具体来说，现有模型存在三个关键缺口：

第一，任务错配。大多数模型优化的是掩码重建或预测性表征学习目标，而非条件生成目标。掩码重建的目标是「给定大脑活动的部分观测，恢复完整的活动模式」；而条件生成的目标是「给定某些条件（如解剖结构、任务刺激），预测未来的大脑活动」。这两种任务在数学形式和实际应用上都有本质区别。表征学习模型学到的表征虽然对下游分类任务有用，但无法直接用于「给定条件，生成未来fMRI序列」这种预测性生成任务。

第二，模态融合方式粗糙。一些多模态模型虽然同时使用sMRI和fMRI，但把两者当作并行输入——就像把两张照片并排放在一起让模型看。这种方式没有充分利用sMRI作为「解剖学蓝图」对功能活动的结构性约束。sMRI和fMRI之间的关系不是对称的：结构在很大程度上约束功能，但功能对结构的影响则微弱得多（至少在成年大脑中如此）。理想的建模方式应该反映这种不对称性。

第三，生成时间跨度短。少数尝试fMRI生成的工作主要在ROI（感兴趣区域）层面操作，而非体素级别的全脑4D信号。ROI级别的生成相当于把大脑压缩成几百个区域的平均信号，丢失了大量空间细节。体素级别的全脑4D生成在计算上要困难几个数量级，因为数据维度从几百跃升到几十万。能生成的时间序列长度也有限，通常只有几十帧，远不能满足实际需求。

为什么结构MRI能帮助功能生成？

这里有一个神经科学的核心事实：大脑的结构和功能密切相关。白质纤维束连接的脑区倾向于形成功能网络；特定脑区的皮层厚度、灰质体积会影响该区域的功能特征。这就像城市交通网络——道路基础设施（结构）决定了车流模式（功能）。一条八车道高速公路和一条乡间小路，即使起点和终点相同，车流模式也会完全不同。

结构-功能关系在多个层次上都成立：

宏观层次：大脑的主要白质束（如弓状束、胼胝体）连接的脑区，通常属于同一个功能网络
中观层次：特定脑回的形态特征（如颞上回的表面积和折叠程度）与语言功能的个体差异相关
微观层次：皮层柱的组织方式、神经元密度等微观结构特征影响局部信息处理效率

因此，如果我们知道一个人的大脑「长什么样」（sMRI提供的信息），就能更好地预测它的功能活动「会怎样变化」（fMRI时间序列）。这就是BrainWorld的核心假设：sMRI可以作为强有力的先验条件，引导fMRI的生成过程。

视频生成技术的启发

另一个灵感来源是视频生成领域的快速发展。全脑4D fMRI生成和视频生成有着惊人的结构相似性：两者都需要从高维时空数据中学习长期动态模式，并在给定条件下合成连贯的时间序列。Sora、Stable Video Diffusion等模型已经展示了扩散Transformer在长视频生成上的强大能力。

当然，fMRI和自然视频也有重要区别：fMRI的空间结构是三维的（而非二维图像序列），时间分辨率远低于视频（秒级vs帧级），数据的统计特性也完全不同（BOLD信号的分布、噪声模式等）。BrainWorld的核心创新在于将视频生成的技术路线迁移到脑影像领域，并注入神经科学特有的结构先验知识，同时针对fMRI数据的独特性质进行架构适配。

核心发现与创新点

创新一：结构先验条件化的扩散生成架构

BrainWorld最核心的设计理念是不对称模态融合。不同于现有方法将sMRI和fMRI作为平等的并行输入，BrainWorld赋予sMRI一个特殊角色：它是生成过程的「解剖学上下文」，就像建筑师的蓝图指导建筑施工一样。蓝图不参与施工，但它约束和引导施工的每一步。

具体来说，BrainWorld的扩散去噪过程不仅以噪声潜在表示为输入，还以sMRI的潜在表征为条件。这种条件注入发生在去噪网络的多个层级——从粗粒度的全局结构信息到细粒度的局部解剖细节。这种设计确保生成的fMRI序列不仅在时间上连贯，而且在空间上与被试的个体解剖结构一致。

这个创新的意义在于：不同人的大脑在解剖结构上差异巨大。脑沟回的形态、皮层的折叠模式、各脑区的相对大小、白质束的走向——这些在个体之间都有显著差异。这些差异直接影响功能活动模式：解剖结构不同的两个人，即使执行相同的认知任务，其脑功能活动的空间分布也可能明显不同。BrainWorld通过将这些个体化的解剖信息嵌入生成过程，能够生成真正「个性化」的fMRI预测，而非泛化的「平均大脑」活动模式。

创新二：两阶段训练策略

BrainWorld采用精心设计的两阶段训练流程：

第一阶段：4D fMRI VAE预训练。这一步训练一个变分自编码器(VAE)，将高维的4D fMRI数据压缩到一个低维潜在空间。这就像给大脑电影创建一个高效的「压缩格式」——保留关键信息的同时大幅降低计算复杂度。原始的4D fMRI数据可能包含数百万个数值（体素数×时间帧数），经过VAE压缩后，潜在表示的维度降低了几个数量级，但仍保留了生成所需的时空结构信息。这个VAE需要特别设计，因为它要处理的是4D时空数据，而不是普通的2D图像。

第二阶段：条件潜在扩散建训。在压缩后的潜在空间中训练扩散模型。这一步的关键在于条件注入机制的设计——如何有效地将sMRI信息传递给扩散模型的去噪网络。BrainWorld探索了多种注入策略，最终选择了一种在去噪过程的多个阶段进行信息融合的方法。扩散模型在这个压缩空间中操作，计算效率大大提高，同时条件注入机制确保生成结果与解剖结构一致。

两个阶段的分离带来了额外的好处：VAE可以独立于生成任务进行优化，确保压缩质量；扩散模型则专注于在压缩空间中学习条件生成分布，不需要同时学习压缩和生成。

创新三：自回归潜在展开生成

要生成长达400帧的fMRI序列，单次扩散生成是不现实的——计算和内存成本都会爆炸。一个400帧的全脑4D序列包含约8000万个数据点，直接在原始空间生成几乎不可能。

BrainWorld采用了自回归展开(autoregressive rollout)策略：先生成一小段fMRI序列（比如50帧），然后以这段序列的末尾部分为条件，继续生成下一段。每一段都以前一段的「尾巴」为起点，确保接缝处的平滑过渡。这就像写连载小说——每一章的开头都承接上一章的结尾，保持故事的连贯性。

这种策略的精妙之处在于：通过在潜在空间中操作，自回归展开的计算成本是可控的（潜在空间的维度远低于原始空间）；同时，条件注入机制确保了整个长序列在解剖结构上的一致性——无论生成多少段，sMRI条件始终相同，因此整个序列都对应同一个大脑的解剖结构。

创新四：多模态表征学习

BrainWorld不仅是一个生成模型，还自然地学习到了高质量的多模态表征。通过同时处理sMRI和fMRI信息，模型内部形成了一个融合了结构和功能信息的统一表征空间。这些表征可以直接提取出来，用于下游的分类、回归等任务。

实验表明，这些表征在跨数据集迁移任务上显著优于专门设计的表征学习方法（如BrainLM、Brain-JEPA）。这说明生成式训练目标（「预测未来」）实际上比判别式训练目标（「理解现在」）能学到更有迁移性的表征。直觉上这很好理解：要准确预测大脑接下来会做什么，模型必须深入理解大脑的结构和功能规律，这种理解自然就形成了高质量的表征。

技术方法详解

整体架构概览

BrainWorld的架构可以类比为一个「电影制作系统」：

编剧（VAE）：负责将复杂的4D fMRI数据压缩成简洁的「剧本」（潜在表示），保留故事的核心内容
导演（扩散模型）：根据「建筑蓝图」（sMRI条件）和「剧本大纲」（噪声潜在表示），逐步「拍摄」出完整的fMRI电影
剪辑师（自回归展开）：将多个片段拼接成完整的长片，确保场景之间的过渡自然流畅

4D fMRI VAE的设计

处理4D fMRI数据的VAE与处理2D图像的VAE有本质区别。fMRI数据在空间上有三个维度（上下、左右、前后），在时间上有一个维度。这四个维度之间的关系是不对称的：空间维度之间有强烈的局部相关性（相邻体素的信号通常相似），而时间维度上则有更复杂的自相关结构（包括节律性波动、任务诱发的瞬态响应等）。

BrainWorld的VAE采用了3D空间卷积+1D时间卷积的混合架构，分别处理空间和时间维度的压缩。空间编码器将每个时间帧的3D脑体积压缩到一个2D特征图，时间编码器再沿时间轴压缩这些特征图。这种分离设计的好处是：空间编码和时间编码可以独立优化，避免4D卷积带来的巨大计算开销。

解码器则执行逆过程，从压缩表征重建完整的4D数据。训练目标包括重建损失（确保压缩-解压过程信息损失最小）和KL散度正则化（确保潜在空间的平滑性，便于后续扩散模型的训练）。KL正则化将潜在空间约束为接近标准正态分布，这使得扩散模型能更好地在这个空间中建模。

条件潜在扩散模型

扩散模型的工作原理可以理解为一个「去噪」过程：从纯噪声开始，逐步去除噪声，最终得到清晰的数据。每一步去噪都是一次微小的调整，经过数百步后，随机噪声就变成了有意义的数据。

在BrainWorld中，这个去噪过程发生在VAE的潜在空间中。去噪网络的架构基于扩散Transformer（DiT），使用自注意力机制处理空间和时间维度的信息。

关键创新在于条件注入机制。BrainWorld探索了三种注入方式：

通道拼接：将sMRI潜在表示与fMRI噪声潜在表示在通道维度拼接。这是最简单的方式，相当于给去噪网络同时看两张「照片」。
交叉注意力：让去噪网络通过注意力机制「查询」sMRI信息。这更灵活，去噪网络可以选择性地关注sMRI中最相关的部分。
多阶段融合：在去噪网络的多个层级分别注入不同粒度的sMRI信息。底层注入细节信息（如局部解剖结构），高层注入全局信息（如整体脑形态）。

最终方案采用多阶段融合，因为大脑的结构-功能关系是多层次的：宏观的脑区位置对应宏观的功能网络，微观的皮层折叠模式对应更精细的功能分化。多阶段融合能同时捕获这些不同层次的对应关系。

条件类型的丰富性

BrainWorld支持多种条件类型的注入，这使其非常灵活：

内在结构条件：来自sMRI的解剖学信息，如脑区形态、皮层厚度、灰质体积、白质束走向等
动态上下文条件：被试的人口学信息（年龄、性别）、扫描参数（TR、TE、场强）、数据集来源等
刺激条件：在任务态fMRI生成中，可以注入视觉、听觉、认知任务等刺激信息

这种多条件设计使BrainWorld能够适应各种场景：静息态fMRI生成（只用结构条件）、任务态fMRI预测（结构+刺激条件）、疾病状态模拟（结构+疾病标签条件）等。条件的灵活性意味着BrainWorld不是只能做一件事的专用模型，而是一个通用的脑动态生成框架。

训练与推理流程

训练阶段：在大规模fMRI-sMRI配对数据上训练。每个训练样本包含一个被试的sMRI和对应的fMRI时间序列。模型学习：给定sMRI和fMRI的前若干帧，预测后续的fMRI帧。训练过程使用标准的扩散模型训练目标——预测每一步添加的噪声。

推理阶段：给定一个新的被试的sMRI，BrainWorld可以：(1)生成该被试的静息态fMRI时间序列，用于数据增强或模拟研究；(2)给定任务条件，预测任务态fMRI响应，辅助实验设计；(3)从短fMRI片段外推更长的时间序列，用于数据补全。

推理时，去噪步数可以在生成质量和速度之间权衡——步数越多质量越高，但耗时也越长。通常50-100步就能获得不错的生成质量。

实验结果分析

数据规模与多样性

BrainWorld在22个独立数据集上进行了评估，这在脑影像生成领域是前所未有的。这些数据集涵盖了极其广泛的人群和脑状态：

人群多样性：包括健康年轻人（HCP、AOMIC）、老年人（ADNI、PPMI）、青少年（ABCD）、不同种族群体（CHCP中国人、BHRC巴西人）等。不同人群的大脑在形态和功能上都有显著差异，能在如此多样的人群上都表现良好，说明模型的泛化能力很强。

脑状态多样性：覆盖静息态（无特定任务）、多种任务态（视觉刺激、听觉刺激、情绪诱发、认知任务）、以及疾病状态（自闭症ASD、帕金森病PD、阿尔茨海默病AD）。这些不同的脑状态对应截然不同的功能活动模式，对生成模型的灵活性提出了很高要求。

扫描参数多样性：不同的MRI机型（1.5T、3T、7T）、不同的扫描协议（不同的TR、TE、体素大小）、不同的预处理流程。模型需要在这些技术差异中学习到共性的脑动态规律。

长程生成能力

BrainWorld最令人印象深刻的实验结果是其长程生成能力：

400帧稳定生成：在自回归展开模式下，BrainWorld能生成长达400帧的fMRI序列，而保持时空一致性。400帧fMRI对应约8-13分钟的扫描时间（取决于TR设置），这在实际应用中已经足够覆盖大多数实验范式。相比之下，现有方法通常只能生成几十帧，时间跨度不到2分钟。

时空质量指标：生成序列在多个定量指标上都与真实数据高度一致：

空间相关性：生成帧与真实帧的体素级相关系数很高
时间自相关性：生成序列的时间动态模式（如BOLD信号的自相关衰减）与真实数据匹配
功能连接模式：生成fMRI的功能连接矩阵（脑区之间的相关模式）与真实数据高度相似
频谱特性：生成信号的功率谱分布与真实BOLD信号一致

被试特异性保持：这是BrainWorld区别于通用生成模型的关键特性。给定不同被试的sMRI作为条件，模型生成的fMRI序列能准确反映每个被试的个体特征。例如，某个被试的默认模式网络连接特别强，另一个被试的额顶控制网络更活跃——这些个体差异在生成数据中都能体现出来。

下游任务增强

一个关键的实际应用验证：用BrainWorld生成的合成fMRI数据增强训练集，可以提升下游任务的性能。实验设计如下：

在原始训练集上训练分类器（如疾病诊断模型）
用BrainWorld生成额外的合成训练样本
将合成样本加入训练集，重新训练分类器
比较加入合成样本前后的分类性能

结果表明，在多个分类和回归任务上（如自闭症诊断、认知状态分类、年龄预测），加入BrainWorld生成的合成样本后，分类器的准确率、AUC等指标都有显著提升。提升幅度在不同任务上有所不同，但在数据稀缺的场景中提升最为明显。

这对罕见疾病研究尤其有价值。以某种罕见脑疾病为例，全球可能只有几百名患者愿意接受fMRI扫描，而训练一个可靠的诊断模型可能需要数千个样本。BrainWorld可以从有限的患者数据中学习疾病特征，生成大量逼真的合成患者fMRI数据，有效解决数据稀缺问题。

多模态表征迁移

BrainWorld学到的多模态表征在跨数据集迁移任务上表现出色：

零样本迁移：在未见过的数据集上，BrainWorld的表征直接用于下游任务，无需微调就能获得合理的性能
少样本迁移：只需少量目标数据集样本进行微调，就能达到很高的准确率
跨人群迁移：在年轻人数据上预训练的表征，在老年人数据上也能有效工作
跨疾病迁移：在一种疾病数据上训练的表征，对其他疾病的诊断也有帮助

这些结果说明，BrainWorld学到的不仅是特定数据集的特征，而是关于脑结构-功能关系的通用知识。

与现有工作的对比

vs. BrainLM/Brain-JEPA等fMRI基础模型

BrainLM和Brain-JEPA是近两年最具代表性的fMRI基础模型。BrainLM使用类似BERT的掩码语言建模目标，Brain-JEPA使用联合嵌入预测架构。两者都在大规模fMRI数据上预训练，学习有信息量的脑活动表征。

BrainWorld与这些方法的核心区别在于建模目标：BrainLM和Brain-JEPA学习的是「给定部分观测，理解完整模式」的能力（判别式/重建式目标），而BrainWorld学习的是「给定条件，预测未来」的能力（生成式目标）。实验结果表明，生成式目标学到的表征在下游任务上反而更优，这挑战了「表征学习应该用专门的自监督目标」的传统观念。

vs. 传统fMRI合成方法

早期的fMRI合成方法主要基于物理模型（如血液动力学模型）或简单的统计模型（如自回归模型、高斯过程）。这些方法生成的fMRI序列通常过于平滑，缺乏真实数据中的复杂动态特征（如尖峰、瞬态事件、非线性耦合等）。

BrainWorld作为基于深度生成模型的方法，能捕获这些复杂的非线性动态模式，生成的fMRI序列在视觉和统计特性上都与真实数据高度相似。当然，代价是需要更多的训练数据和计算资源。

vs. 视频生成模型

BrainWorld借鉴了视频生成（特别是扩散Transformer）的技术路线，但做了关键的领域适配：

引入解剖学先验条件（视频生成中没有类似的概念）
处理4D（3D空间+时间）数据，而非3D（2D空间+时间）
设计领域特定的评估指标（功能连接、频谱特性等）
针对BOLD信号的统计特性调整模型参数

这些适配使BrainWorld能有效处理脑影像数据的独特挑战，而不能简单地将视频生成模型应用于fMRI数据。

vs. 其他结构-功能多模态方法

现有结构-功能联合建模方法（如Brain Harmony）将两种模态作为平等输入，使用对比学习或联合编码的方式融合信息。BrainWorld的不对称设计（sMRI作为条件，fMRI作为生成目标）更符合神经科学的因果直觉：结构约束功能，而非反之。实验也证实了这种不对称设计在生成任务上的优越性。

潜在应用与影响

临床应用

罕见疾病数据增强：对于患病率极低的脑疾病，真实fMRI数据极其稀缺。BrainWorld可以生成逼真的患者fMRI数据，帮助训练更准确的诊断模型。这对儿童罕见脑病、罕见遗传性神经退行性疾病等尤为重要。
手术规划：在脑肿瘤等手术前，可以用BrainWorld预测不同手术方案对脑功能的影响。通过模拟切除特定脑区后的功能重组，帮助外科医生选择最优手术路径。
药物研发：模拟药物干预对脑功能动态的影响，加速神经药物筛选。例如，预测某种抗抑郁药物对默认模式网络活动的调节效果。
个体化医疗：基于患者的个体解剖结构，预测其对特定治疗方案的功能响应，实现精准医疗。

基础研究

脑-行为关系建模：通过生成不同认知条件下的fMRI，系统研究刺激-脑响应的映射关系。例如，生成观看不同情绪图片时的脑活动模式，揭示情绪处理的神经机制。
发育与衰老研究：模拟不同年龄段的脑功能变化轨迹。给定一个儿童的sMRI，预测其脑功能在发育过程中会如何变化。
脑疾病机制研究：通过对比健康和疾病状态的生成fMRI，揭示疾病对脑动态的影响机制。例如，比较阿尔茨海默病患者和健康老年人在相同解剖结构约束下的功能差异。
计算神经科学：为构建更精确的脑计算模型提供数据约束和验证基准。

技术影响

数据效率提升：在fMRI数据稀缺的场景中，生成样本增强可以显著降低数据采集成本。一次fMRI扫描的成本在数百到数千美元不等，如果能用合成数据替代部分真实数据，可以节省大量研究经费。
表征学习新范式：生成式预训练可能成为脑影像基础模型的主流训练方式。BrainWorld的结果表明，「预测未来」比「重建现在」能学到更好的表征。
多模态融合新思路：不对称条件化设计为其他多模态生成任务提供了参考，不限于脑影像领域。

局限性与未来方向

当前局限

计算成本高：4D fMRI的生成需要大量GPU内存和计算时间。生成400帧全脑fMRI序列可能需要数小时的GPU时间，限制了实时应用场景。
sMRI依赖：模型需要高质量的sMRI作为输入，而在某些临床场景中sMRI可能不可用（如急诊情况、某些便携式MRI设备）。未来可以探索部分sMRI输入或sMRI缺失时的生成策略。
生成质量的细粒度评估：虽然整体指标良好，但在个体体素级别的生成精度仍有提升空间。特别是在脑区边界、深部核团等结构复杂的区域，生成质量可能不够理想。
因果性验证不足：模型学到的结构-功能映射是否反映了真实的神经机制，还需要更多神经科学层面的验证。例如，可以设计实验验证生成的fMRI在特定脑区干预后的变化是否符合预期。
纵向一致性：对于同一被试在不同时间点的fMRI生成，模型能否保持纵向一致性（反映真实的个体内变异），目前还没有充分验证。

未来方向

扩展到更多模态：整合DTI（弥散张量成像，提供白质纤维束信息）、EEG（提供毫秒级时间分辨率）、MEG等其他脑影像模态，构建更全面的脑动态模型。
实时生成优化：通过模型压缩、知识蒸馏、一致性模型等技术实现实时或近实时的fMRI生成。这对于脑机接口、实时神经反馈等应用至关重要。
临床验证：在真实临床场景中验证生成数据的实用性，如辅助诊断、治疗监测、手术规划等。从技术验证到临床应用还有很长的路要走。
因果干预模拟：结合因果推断方法，模拟特定脑区干预（如经颅磁刺激TMS、深部脑刺激DBS）对全脑动态的影响。这将为神经调控治疗的优化提供计算工具。
跨物种迁移：探索在动物脑影像数据上预训练，迁移到人类脑影像分析的可能性。这可以利用动物实验中更可控的条件和更丰富的数据。

总结

BrainWorld在全脑4D fMRI生成领域迈出了重要一步。通过将sMRI作为不对称的解剖学先验条件注入扩散生成过程，它解决了现有fMRI基础模型在生成任务上的根本局限。22个数据集上的广泛验证、400帧的长程生成能力、以及在下游任务增强和表征迁移上的优越性能，都证明了这条技术路线的可行性和潜力。不对称模态融合的设计理念——用结构约束功能生成——既符合神经科学直觉，又在实验中被证明有效。随着脑影像数据的持续积累和生成技术的不断进步，BrainWorld为脑动态建模和多模态神经科学开辟了新的方向，也为临床应用（如罕见疾病数据增强、手术规划、药物研发）提供了新的技术基础。

参考延伸

论文原文：https://arxiv.org/abs/2606.17742v1
代码仓库：GitHub（论文中提供链接）
相关fMRI基础模型：BrainLM（掩码语言模型式预训练）、Brain-JEPA（联合嵌入预测架构）、BrainMass、BrainIAC
扩散模型基础：Denoising Diffusion Probabilistic Models (DDPM)、Diffusion Transformers (DiT)、Classifier-Free Guidance
视频生成参考：Sora (OpenAI)、Stable Video Diffusion、VideoPoet
fMRI数据集：Human Connectome Project (HCP)、ABCD Study、ADNI、ABIDE、PPMI
结构-功能关系综述：Structure-function relationships in the human brain相关综述文章