扩散语言模型的推理透明度：DiffusionGemma能否被真正理解？

TL;DR

扩散语言模型DiffusionGemma的推理过程看似比自回归模型Gemma 4"黑箱"了28.6倍，但研究人员发现，通过一个可解释的"token瓶颈"来映射去噪步骤之间的信息流动，其不透明计算深度可以降至仅1.1倍——几乎与传统模型持平。更有趣的是，扩散模型展现出独特的推理现象：非时序推理、token涂抹、序列涂抹和中间上下文推理，这些在自回归模型中根本不存在。这项研究为理解新一代语言模型的"思考方式"打开了全新视角。

论文信息

论文标题：How Transparent is DiffusionGemma?
作者：Joshua Engels, Callum McDougall, Bilal Chughtai
arXiv ID：2606.20560v1
分类：cs.LG, cs.AI
关键词：扩散模型、推理透明度、可解释性、语言模型安全、DiffusionGemma

研究背景与动机

过去几年，大语言模型（LLM）的可解释性研究一直是AI安全领域的核心议题。当我们使用GPT-4或Claude回答问题时，至少在理论上，我们可以通过观察模型逐token生成的过程来理解它"在想什么"。这种逐token的推理链条为模型的决策提供了一个可追溯的路径——你可以看到模型先说了什么，后说了什么，从而推断它是如何得出结论的。

但2025年以来，一个新的范式正在悄然崛起：扩散语言模型（Diffusion Language Models）。与传统的自回归模型（Autoregressive Models）不同，扩散语言模型借鉴了图像生成领域中Stable Diffusion的成功经验，通过反复去噪来生成文本。具体来说，模型从一串完全随机的噪声token开始，经过多轮迭代，逐步将这些噪声"打磨"成有意义的文本。这个过程与自回归模型逐字逐句生成的方式截然不同。

这种范式转变带来了一个根本性的问题：当模型的推理过程不再是逐token的线性生成，而是在一个连续的潜在空间中进行多步去噪时，我们还能理解模型是如何做出决策的吗？

这个问题并非杞人忧天。在AI安全研究中，"透明度"（Transparency）被普遍认为是一项关键能力。透明度意味着我们能够理解模型的决策过程、减轻潜在的误用和不对齐（Misalignment），以及调试模型的意外行为。如果新一代的扩散语言模型在透明度上大幅退化，那么整个AI安全框架可能都需要重新审视。

更具体地说，研究者们关心的是一个被称为"不透明序列深度"（Opaque Serial Depth）的指标。这个指标衡量的是在两个可解释的模型状态之间，发生了多少不可直接解释的计算。对于自回归模型，这个值相对较低——每生成一个token，你都可以直接看到模型的输出概率分布。但对于扩散模型，情况要复杂得多：在两次去噪步骤之间，模型在连续空间中执行了大量的计算，这些计算看起来就像一个黑箱。

DiffusionGemma是Google推出的一个扩散语言模型，它在多项基准测试上展现出了与自回归模型Gemma 4相当的性能。但性能只是硬币的一面——另一面是，我们是否能够理解它是如何工作的？这正是Joshua Engels和他的合作者在这篇论文中试图回答的问题。

研究者们将透明度分解为两个维度来分析。第一个维度是"变量透明度"（Variable Transparency），即我们能否理解模型计算过程中的中间快照——好比你能否看懂棋局中每一步棋的含义。第二个维度是"算法透明度"（Algorithmic Transparency），即我们能否利用这些中间快照来重构模型到达最终输出的推理路径——好比你能否通过观察棋局的每一步，理解棋手的整体策略。

这两个维度的关系是相辅相成的。变量透明度是算法透明度的基础：如果你连中间状态都看不懂，就更谈不上理解整体算法。但变量透明度并不自动带来算法透明度——就像你能看懂国际象棋中每一步棋子的移动，却不一定能理解棋手为什么要这样走。

带着这个分析框架，研究者们对DiffusionGemma进行了系统性的透明度评估。他们的发现既有令人担忧的部分，也有出乎意料的积极信号。

核心发现

发现一：不透明序列深度远没有看起来那么可怕

初看之下，DiffusionGemma的透明度前景似乎相当黯淡。研究者计算了它的"不透明序列深度"——也就是在两个可解释状态之间，发生了多少我们无法直接理解的计算。结果令人震惊：DiffusionGemma的不透明序列深度是Gemma 4的28.6倍。这意味着，如果你把模型的推理过程想象成一条生产线，那么DiffusionGemma的生产线中有28.6倍于自回归模型的"暗室"部分——你看不到中间发生了什么。

然而，研究者随后展示了一个关键发现：他们可以将去噪步骤之间流动的信息映射到一个可解释的token瓶颈（Interpretable Token Bottleneck）上，而且不会导致下游性能的任何下降。这个操作相当于在那些"暗室"中安装了监控摄像头——虽然计算仍然在连续空间中进行，但我们可以通过这个瓶颈来观察信息的流动。

经过这个映射操作后，DiffusionGemma的不透明序列深度骤降至仅1.1倍于Gemma 4。换句话说，在引入可解释瓶颈之后，扩散语言模型的推理透明度与自回归模型几乎持平。

发现二：扩散模型展现出独特的推理现象

这篇论文最引人注目的发现来自一系列可解释性案例研究。研究者们在分析DiffusionGemma的去噪过程中，发现了三种在自回归模型中从未观察到的现象。

非时序推理（Non-chronological Reasoning）：在自回归模型中，文本是严格按照从左到右的顺序生成的——先写第一个词，再写第二个词，依此类推。但在DiffusionGemma中，模型可能会先确定文本后半部分的内容，再回头填充前半部分。这就像一个作家先写好了故事的结局，再回头构思开头。这种"倒着想"的能力意味着模型的推理路径与最终文本的表面顺序完全不一致。

Token涂抹与序列涂抹（Token Smearing and Sequence Smearing）：在自回归模型中，每个token都有一个明确的身份——它要么是"the"，要么是"cat"，没有中间状态。但在扩散模型中，处于中间去噪步骤的token可能同时携带多个可能词的混合信息——就像一个还在"褪色"的字，它同时看起来像"猫"和"狗"。这种模糊状态意味着信息可以在多个token之间"涂抹"，使得单个token的含义变得不确定。序列涂抹则是更大范围的现象——整段文本在去噪过程中可能同时承载多种可能内容的混合。

中间上下文推理（Intermediate-Context Reasoning）：在扩散模型的去噪过程中，模型不仅在生成最终文本，还在利用中间状态的不完整信息进行推理。这意味着模型的"思考"过程与"输出"过程是紧密交织的——不像自回归模型那样可以相对清晰地分离"内心的思考"和"说出的话"。

发现三：监控能力与自回归模型持平

透明度的一个关键下游应用是"可监控性"（Monitorability）——即模型的输出是否足够透明，以至于一个外部监控系统可以有效地检测潜在的问题。研究者们测试了DiffusionGemma的可监控性，并发现它与Gemma 4的表现基本相当。这一发现表明，尽管扩散模型的内部机制与自回归模型有根本性的不同，但从实际应用的角度来看，它们在可监控性上并没有显著的劣势。

技术方法详解

类比：自回归模型与扩散模型的区别

要理解这项研究的技术细节，我们首先需要用一个直观的类比来区分两种语言模型的工作方式。

想象你是一个翻译员，需要将一段中文翻译成英文。自回归模型的工作方式就像一个传统的翻译员：他从第一个字开始翻译，每翻译完一个词就把它写在纸上，然后根据已写好的内容决定下一个词是什么。整个过程是线性的、有序的，你可以在任何一个时间点检查他已经写了什么，这就是他的"推理状态"。

扩散模型的工作方式则完全不同。想象另一个翻译员，他的工作方法是：首先在纸上随意写下一大段乱七八糟的英文字母（这对应初始噪声），然后反复通读整段文字，每一轮都做一些微小的修改——把一些错的字母改成对的，把一些不连贯的词组理顺。经过很多轮修改后，纸上最终呈现出一篇通顺的英文翻译。

第一个翻译员（自回归模型）的优势在于，他的每一步都是可解释的——你看到他在写什么，就知道他在想什么。第二个翻译员（扩散模型）的问题在于，他在中间阶段的修改过程是发生在"连续空间"中的——那些半对半错的文字混合在一起，你很难直接读懂。

不透明序列深度：一个量化的透明度指标

研究者引入了"不透明序列深度"这个概念来量化这个问题。继续上面的类比：假设第一个翻译员每写一个词，你都需要观察他的动作（一次"序列计算"）。那么对于一整段翻译，你需要观察N次（N是词的数量）。

但对于第二个翻译员，情况更复杂。在他每一轮的修改中，纸上的内容是通过一系列连续空间操作产生的——先编码、再做多层变换、再解码。这些操作的中间结果不是离散的文字，而是高维的数值向量，你看不懂。这些看不懂的计算就构成了"不透明序列深度"。

研究者发现，如果粗略计算，DiffusionGemma的不透明序列深度是Gemma 4的28.6倍。原因很简单：自回归模型每生成一个token就产生一个可解释的输出分布，而不透明计算主要发生在transformer的前向传播中。但扩散模型除了transformer的前向传播外，还有多轮去噪步骤，每一步都涉及连续空间中的大量计算。

Token瓶颈：在暗室中装监控

那么如何解决这个问题呢？研究者提出了一个巧妙的方法：信息瓶颈映射。

回到翻译员的类比。想象你在第二个翻译员的工作台上安装了一台特殊的打印机。这台打印机连接着翻译员修改文本时使用的内部草稿纸（对应模型的连续潜在状态），能够将草稿纸上的连续信息"翻译"成离散的文字片段。虽然翻译员的工作方式没有改变（他仍然在连续空间中修改），但你现在可以通过这台打印机实时监控他在想什么。

技术上，研究者在DiffusionGemma的去噪步骤之间插入了一个映射层，将连续空间中的信息流转换为离散token序列。这个映射层被训练为一个"瓶颈"——它只能通过有限的token容量来传递信息，迫使模型学会将最重要的信息编码到这些离散token中。

关键的实验结果是：引入这个瓶颈后，模型的下游性能几乎没有下降。这意味着去噪步骤之间的信息流动是可以被有效地离散化表示的。而有了这些可解释的离散token作为中间状态，不透明序列深度就降低到了仅1.1倍于Gemma 4。

这个结果的深层含义是：尽管扩散模型在数学上是在连续空间中操作，但它实际学到的算法本质上仍然可以被离散化地理解。模型并没有利用连续空间做一些"超越离散语言"的神奇计算——它主要还是在做我们能够理解的基于token的信息处理。

去噪过程的案例研究

为了深入理解扩散模型的推理过程，研究者设计了一系列精心设计的案例研究，观察模型在不同任务中的去噪行为。

解码并追踪信息流动：研究者选择了一些特定的推理任务（如简单的数学题或逻辑推理），然后追踪模型从初始噪声到最终输出的整个去噪过程中，信息是如何在不同token位置之间流动的。

举个例子，如果让模型回答"2+3=?"，在自回归模型中，你会看到模型先输出"2+3="，然后输出"5"，推理路径清晰明了。但在DiffusionGemma中，研究者观察到：模型可能首先在所有位置上都产生一些模糊的数字信号，然后逐渐在答案位置上收敛为"5"，同时在问题位置上收敛为"2+3="。答案的确定甚至可能早于问题的完全确定——这就是非时序推理的一个实例。

Token涂抹现象的可视化：研究者通过可视化中间去噪步骤中每个位置的token概率分布，发现了token涂抹现象。在早期去噪步骤中，某个位置的概率分布可能是均匀分散在多个token上的——比如30%的"cat"、20%的"dog"、15%的"bird"等等。随着去噪的进行，这个分布逐渐尖锐化，最终收敛到一个确定的token。

这个过程本身并不令人意外（这正是扩散模型的设计原理），但有趣的是，研究者发现这种模糊状态不仅仅是一个"中间产物"——模型似乎在利用这种模糊性来在多个可能的输出之间进行"协商"。不同位置上的模糊token会相互影响，通过多轮迭代逐渐达成一致。这就像一场"无声的会议"——每个token位置都在犹豫不决，但通过反复的相互沟通，最终达成共识。

序列涂抹与全局推理：在更长的文本生成任务中，研究者发现了序列涂抹现象——整段文本在中间去噪步骤中同时承载多种可能的解读。这种现象的一个有趣的实际效果是：模型可以在生成文本的中途改变"主意"。如果中间状态发现某个方向的推理不可行，它可以在后续的去噪步骤中"回滚"，选择另一条推理路径。这在自回归模型中是极难实现的——因为自回归模型一旦生成了某个token，就无法轻易修改。

方法论的创新之处

这项研究的方法论贡献不仅仅在于具体的技术手段，更在于它提出了一套系统的分析框架。将透明度分解为变量透明度和算法透明度两个维度，为未来评估其他非自回归模型的透明度提供了理论基础。同时，"不透明序列深度"这一指标的提出，使得不同架构之间的透明度比较成为可能——这是一个可量化、可比较的度量标准，而非模糊的定性判断。

实验结果分析

定量结果

论文的核心定量结果围绕不透明序列深度的测量展开。在未引入token瓶颈时，DiffusionGemma的不透明序列深度约为Gemma 4的28.6倍。引入token瓶颈后，这一比值降至1.1倍，且在多个下游任务上的性能损失在统计意义上不显著。

可监控性测试的结果同样令人印象深刻。研究者使用了标准的监控基准，测试外部监控系统能否有效地从模型的输出中检测潜在的不对齐行为。结果显示，DiffusionGemma的可监控性得分与Gemma 4基本持平，差异在实验误差范围内。

定性发现

定性方面的发现可能更加引人注目。非时序推理、token涂抹和序列涂抹这三种现象，每一种都为我们理解扩散模型的工作方式提供了新的视角。

非时序推理的发现特别值得注意。这意味着扩散模型可能具有一种类似于"全局规划"的能力——它不需要像自回归模型那样从左到右线性思考，而是可以同时考虑文本的多个部分，然后在去噪过程中逐步协调。这种能力在某些需要全局一致性的任务中可能是一个优势，但同时也增加了理解和预测模型行为的难度。

案例研究的启示

案例研究的结果表明，扩散模型的推理过程比表面上看起来更加有规律。尽管去噪过程在数学上是一个连续的随机过程，但模型学到的去噪策略似乎具有清晰的"逻辑结构"——比如先确定关键信息，再填充细节；先建立全局框架，再完善局部内容。这种结构化的去噪策略暗示，扩散模型可能正在发展出一种与自回归模型截然不同但同样有效的"推理方式"。

与现有工作对比

与自回归模型可解释性研究的对比

自回归模型的可解释性研究已经积累了大量的方法论和实证发现。机械可解释性（Mechanistic Interpretability）领域的研究者已经能够在GPT-2等模型中定位特定的功能回路，如间接对象识别回路、复制回路等。这些研究依赖于自回归模型的一个关键特性：每个token的生成都是一个相对独立的"计算单元"，可以通过激活修补（Activation Patching）等技术来隔离和分析。

DiffusionGemma的透明度研究面临的一个根本性挑战是，这种"计算单元"的概念在扩散模型中并不天然存在。去噪步骤之间的信息流动是全局性的——所有token位置同时更新，所有信息同时流动。这意味着传统的机械可解释性工具不能直接应用，需要发展新的方法论。

与连续空间模型的对比

扩散语言模型并不是唯一在连续空间中操作的语言模型。VAE（变分自编码器）语言模型和流匹配（Flow Matching）语言模型同样涉及连续空间的计算。但扩散模型有一个独特之处：它的去噪过程是迭代的——每一步都对整个序列进行修改。这种迭代性为理解模型的推理过程提供了额外的机会（我们可以观察每一步的中间状态），但也增加了分析的复杂性（中间状态的数量随步骤数线性增长）。

与图像扩散模型可解释性研究的对比

在图像生成领域，扩散模型的可解释性研究已经取得了一些进展。研究者发现，扩散模型在去噪过程中会自然地形成层次化的特征表示——先确定全局布局，再添加局部细节。DiffusionGemma的研究发现了类似的模式：在文本生成中，模型也倾向于先确定关键信息的"框架"，再填充具体内容。这种跨模态的一致性暗示，迭代去噪可能天然地倾向于一种"从粗到细"的处理策略。

但文本和图像的一个重要区别在于离散性。图像的像素值是连续的，中间状态（半去噪的图像）在物理上是有意义的——它看起来就像一张模糊的照片。但文本的中间状态是连续空间中的向量，它没有直接的文字对应物。Token瓶颈方法的价值正在于此：它为这些无意义的连续向量提供了一个可解释的"翻译"。

与其他安全研究的定位

从AI安全的角度来看，这项研究填补了一个重要的空白。现有的AI安全研究大多关注自回归模型——因为它们是当前部署最广泛的语言模型架构。但如果扩散语言模型在未来得到更广泛的应用（考虑到它们在推理速度上的潜在优势，这并非不可能），那么我们就需要对它们的安全特性有同样深入的理解。这项研究是朝这个方向迈出的第一步。

潜在应用与影响

对模型部署的影响

这项研究最直接的应用是为DiffusionGemma的实际部署提供了安全评估的基础。研究结果表明，通过引入token瓶颈，扩散语言模型可以达到与自回归模型相当的透明度和可监控性。这意味着，在需要高透明度的应用场景中（如医疗咨询、法律建议、金融分析），扩散语言模型并非不可用——前提是正确地配置了透明度增强机制。

对模型调试的影响

对于模型开发者而言，token瓶颈方法提供了一种强大的调试工具。当扩散语言模型产生意外的输出时，开发者可以通过检查token瓶颈中的中间token序列来理解模型的推理路径。这类似于在自回归模型中检查"思维链"（Chain of Thought），但适用范围更广——因为扩散模型的推理过程是非线性的。

对AI安全研究的影响

从更宏观的角度来看，这项研究提出了一个重要的理论贡献：透明度不是自回归模型的专属特性，而是一个可以在不同架构之间进行比较和优化的通用指标。这一认识可能促使AI安全社区更多地关注非自回归模型的安全特性，而不是默认假设只有自回归模型才是"可理解的"。

对扩散模型发展的影响

对于扩散语言模型的研究社区而言，这项研究提供了一个重要的正面信号：扩散模型在透明度上的劣势可以通过技术手段来弥补。这可能鼓励更多的研究者投入扩散语言模型的开发，因为他们知道透明度问题并非不可逾越的障碍。

对模型监控生态的影响

可监控性的积极结果对整个模型监控生态系统有重要意义。如果扩散语言模型与自回归模型同样可监控，那么现有的监控基础设施和技术可以相对容易地迁移到扩散模型上，而不需要从头开发全新的监控框架。

局限性与未来方向

当前研究的局限性

尽管这项研究的结果令人鼓舞，但我们必须清醒地认识到它的局限性。

首先，token瓶颈方法虽然能恢复透明度，但它本身需要额外的计算开销和训练成本。在实际部署中，是否愿意承担这个成本来换取透明度，是一个需要权衡的工程决策。

其次，研究中的可解释性案例研究虽然揭示了有趣的定性现象，但这些发现的系统性和普遍性还需要进一步验证。非时序推理、token涂抹和序列涂抹是否在所有类型的推理任务中都存在？它们的强度和模式是否有规律可循？这些问题目前还没有明确的答案。

第三，研究主要集中在DiffusionGemma这一个模型上。不同的扩散语言模型架构（如MDLM、SEDD等）可能表现出不同的透明度特性。将研究结论推广到整个扩散语言模型类别需要更多的实证工作。

第四，"不透明序列深度"虽然是一个有用的指标，但它可能不足以全面刻画模型的透明度。一个模型的不透明序列深度很低，但如果其中间状态虽然在技术上是"可解释的"，但实际上极其复杂以至于人类无法理解，那么它的实际透明度仍然不高。

未来研究方向

基于这项研究，多个有前景的未来方向浮现出来。

更精细的透明度指标：需要开发超越"不透明序列深度"的更丰富的透明度评估指标。这些指标应该能够捕捉中间状态的"可理解性"——不仅仅是它们是否在技术上可解释，而是人类（或监控系统）能否有效地利用它们来理解模型的行为。

扩散特定的机械可解释性方法：自回归模型的机械可解释性方法不能直接迁移到扩散模型。需要发展一套专门针对扩散模型的可解释性工具，能够分析去噪过程中的信息流动、特征表示和决策机制。

透明度与能力的权衡：一个自然的问题是：增强透明度（如引入token瓶颈）是否会在某些情况下损害模型的能力？当前研究在特定任务上未发现显著的性能下降，但在更广泛的任务范围和更大的模型上，这种权衡关系可能更加复杂。

跨架构的透明度比较：将透明度分析扩展到其他非自回归架构，如掩码语言模型、流匹配模型等，建立一个更全面的非自回归模型透明度图谱。

实际安全应用的验证：当前的可监控性测试基于标准基准，但在真实的安全场景中（如检测有害内容、识别偏见等），扩散语言模型的表现还需要在更贴近实际的环境中进行验证。

去噪策略的深入研究：非时序推理和涂抹现象的发现打开了许多有趣的研究问题。模型的去噪策略是否有"最优"的模式？我们能否通过训练或架构设计来引导模型发展出更有规律的去噪策略？这些问题不仅有理论价值，还可能对模型的性能和可控性产生实际影响。

总结

这项研究回答了一个关键问题：扩散语言模型是否天生就比自回归模型更不透明？答案是——没那么严重。

通过引入token瓶颈方法，DiffusionGemma的不透明序列深度从看似令人绝望的28.6倍降至几乎可以忽略的1.1倍。更有趣的是，研究者在扩散模型的去噪过程中发现了非时序推理、token涂抹和序列涂抹三种全新的现象，这些现象在自回归模型中根本不存在，暗示扩散模型正在发展出一种独特而有效的"思维方式"。

这项研究的意义超越了DiffusionGemma本身。它为整个扩散语言模型领域的安全研究奠定了方法论基础，提出了一套可量化、可比较的透明度分析框架，并证明了透明度是可以通过技术手段来增强的。在扩散语言模型可能成为下一代主流架构的背景下，这项研究的及时性和重要性不言而喻。

当然，通往完全透明的扩散语言模型的道路还很漫长。非线性推理路径的追踪、去噪策略的系统理解、跨架构的透明度标准——这些都是有待解决的难题。但至少现在我们知道，这条路是通的。

本文基于论文"How Transparent is DiffusionGemma?"（arXiv:2606.20560）撰写，旨在以通俗易懂的方式介绍扩散语言模型的透明度研究进展。