DiffusionGemma 的透明度究竟如何？——扩散语言模型可解释性深度解析

TL;DR

扩散语言模型 DiffusionGemma 的推理透明度比最初预想的要好得多。表面上看，它的"不透明串行深度"是传统自回归模型 Gemma 4 的 28.6 倍——这意味着在两个可解读的中间状态之间，有大量计算发生在难以直接理解的连续潜空间中。但研究者发现，通过在去噪步骤之间插入一个可解释的 token 瓶颈层，就能无损地将中间状态变得透明，将不透明串行深度压缩到 Gemma 4 的 1.1 倍。然而，算法层面的透明度仍然面临挑战：扩散模型的每个去噪步骤都可能同时修改所有 token，使得其推理过程呈现出非时序推理、token 涂抹和中间上下文推理等全新现象。好消息是，在可监控性测试中，DiffusionGemma 与 Gemma 4 表现相当。

论文信息

标题：How Transparent is DiffusionGemma?
arXiv ID：2606.20560v1
研究主题：扩散语言模型的推理透明度与可解释性
核心关键词：DiffusionGemma、扩散模型、透明度、可解释性、可监控性、自回归模型

研究背景与动机

大语言模型已经深入到我们日常生活的方方面面——从代码编写辅助到医疗咨询，从法律文书起草到教育辅导。随着这些模型被部署到越来越关键的场景中，一个核心问题浮出水面：我们真的理解模型是如何做出决策的吗？

这个问题远非学术好奇心那么简单。想象一个医疗诊断 AI，它给出了一个令人意外的诊断建议。医生需要知道：这个建议是基于对患者症状的合理分析，还是模型在某些边缘案例上的统计偏差？再想象一个自动驾驶系统中的语言理解模块，它需要对交通指令做出实时解读。如果模型犯了错，工程师需要能够回溯整个推理链条，找到问题的根源。

在传统的自回归语言模型（比如 GPT 系列、Gemini、Gemma 等）中，研究者已经发展出了一套相对成熟的可解释性工具。自回归模型的工作方式类似于人类写作——一个 token 接一个 token 地生成，每一步都可以被观察和分析。研究者可以追踪注意力头在关注什么，中间层的表示如何变化，最终输出是如何一步步构建出来的。虽然这并不意味着自回归模型完全透明，但至少提供了一系列可以撬开"黑箱"的工具。

然而，2024 年以来，一种全新的语言模型范式开始崭露头角：扩散语言模型。与自回归模型逐个生成 token 不同，扩散语言模型借鉴了图像生成领域的扩散模型思想，从一团"噪声"开始，通过反复去噪，逐步"雕刻"出完整的文本。这种工作方式带来了一些独特的优势：可以同时修改所有位置的 token，能够实现双向上下文推理，在某些任务上展现出了超越自回归模型的潜力。

DiffusionGemma 就是这类模型中的一个典型代表。它将语言生成过程转化为一个连续空间中的去噪过程，计算过程大量发生在连续的潜空间中，而非离散的 token 空间。这带来了一个关键的透明度挑战：如果模型的核心计算发生在一个人类难以直接理解的连续空间中，我们还能有效地解读它的推理过程吗？

这就好比一个画家在创作。自回归模型的画家是从左到右一笔一笔地画，每一笔都可以被观察和评判。而扩散语言模型的画家则更像是在一团迷雾中创作——它先在迷雾中构建出一个模糊的轮廓，然后不断细化，直到整幅画变得清晰。问题是，如果关键的创作决策都发生在那团迷雾中，我们如何理解画家的创作意图？

研究者将这个核心问题分解为两个更具体的子问题：

变量透明度（Variable Transparency）：我们能否理解模型在计算过程中各个中间状态的含义？如果模型的计算是一条由许多步骤组成的链条，那么链条的每一环是否都可以被人类理解？

算法透明度（Algorithmic Transparency）：即使我们理解了中间状态，我们能否重构模型从输入到输出的完整算法过程？换句话说，我们能否知道模型"在想什么"，而不仅仅是看到它"在做什么"？

这两个维度缺一不可。只有变量透明度没有算法透明度，就像能看到棋盘上每个棋子的位置，但无法理解棋手的策略；只有算法透明度没有变量透明度，则像是知道棋手有某种策略，但无法观察到具体的棋局状态。

论文的核心发现令人振奋：DiffusionGemma 在变量透明度方面的表现远好于最初的数据所暗示的，而算法透明度则揭示出了一系列扩散模型特有的全新推理现象。

核心发现

发现一：不透明串行深度远低于表面数值

研究者引入了一个关键指标——不透明串行深度（Opaque Serial Depth），用来衡量在两个可解读状态之间，模型执行了多少"不透明"的串行计算。

初次计算时，DiffusionGemma 的不透明串行深度竟然是 Gemma 4 的 28.6 倍。这个数字相当惊人，意味着 DiffusionGemma 的推理过程似乎被一层厚厚的迷雾所笼罩。在自回归模型中，每生成一个 token，中间层的表示都可以被相对清晰地追踪和解释；而在扩散模型中，多个去噪步骤之间的连续潜空间计算则像是一条漫长的隧道，进出口可见，内部却漆黑一片。

但研究者随后展示了一个优雅的解决方案。他们发现，可以在去噪步骤之间插入一个"可解释的 token 瓶颈"——这个瓶颈层将连续潜空间中的信息映射回离散的 token 表示，使得每一步去噪的中间结果都变得可以解读。

更令人惊喜的是，这个操作几乎没有影响模型的下游性能。经过瓶颈层处理后，不透明串行深度骤降至 Gemma 4 的 1.1 倍——几乎与传统自回归模型持平。这意味着，扩散语言模型在透明度方面并不像最初看起来那样处于劣势。

发现二：扩散模型的算法透明度面临独特挑战

变量透明度的问题可以通过巧妙的工程手段解决，但算法透明度则面临更根本的困难。

自回归模型的推理过程有一个天然的结构化特征：它是时序的。第 N 个 token 的生成只依赖于前 N-1 个 token，推理过程是一条清晰的因果链。虽然实际情况更复杂（注意力机制允许模型关注任意位置），但这种时序结构为可解释性分析提供了一个强有力的框架。

扩散模型则完全不同。在每一个去噪步骤中，画布上所有位置的 token 都可能同时被修改。这意味着模型有能力在去噪过程中实现复杂的分布式算法——不同的 token 之间可以相互"交流"和"协商"，在多个步骤中逐步达成一致。这种能力是强大的，但也使得算法层面的透明度分析变得极其困难。

打个比方，自回归模型的推理就像一个独奏者在演奏——每个音符按照乐谱的顺序依次奏出，听众可以清晰地追踪旋律的展开。而扩散模型的推理则更像一个交响乐团——数十个乐器同时发声，彼此之间有复杂的和声关系和节奏配合，要理解整首曲子是如何被"计算"出来的，远比追踪一个独奏者困难得多。

发现三：扩散模型特有的推理现象

通过对 DiffusionGemma 进行一系列可解释性案例研究，研究者发现了三种此前从未被观察到的扩散模型特有现象：

非时序推理（Non-chronological Reasoning）：自回归模型严格按照从左到右的顺序生成文本，后面的 token 只能参考前面已经生成的内容。扩散模型则没有这个限制——在去噪过程中，文本末尾的信息可以影响开头的 token，反之亦然。这使得模型能够执行一种"非时序"的推理，先在文本的某些部分形成初步的"想法"，然后在后续步骤中将这些想法传播到整个序列。

Token 涂抹与序列涂抹（Token and Sequence Smearing）：在扩散模型的去噪过程中，单个 token 的信息有时会"涂抹"到相邻的 token 上，或者整个序列段的特征会相互"渗透"。这种现象在自回归模型中不会出现，它是连续潜空间计算的一个副产物。

中间上下文推理（Intermediate-context Reasoning）：扩散模型能够在去噪的中间步骤中利用"上下文"信息进行推理，这些中间上下文可能不同于最终的输入上下文，为模型提供了一种额外的推理渠道。

发现四：可监控性与自回归模型相当

透明度的一个关键下游应用是可监控性（Monitorability）——即模型的输出是否足够透明，使得外部监控系统能够有效地检测异常行为、安全风险或质量问题。

研究者测试了 DiffusionGemma 的可监控性，发现它与 Gemma 4 的表现相当。这是一个重要的正面结果，表明扩散语言模型在实际部署中的可监控性并不会因为其底层计算范式的不同而受到显著影响。

技术方法详解

透明度分解框架

论文的核心方法论创新在于将"透明度"这个模糊的概念分解为两个正交的维度：变量透明度和算法透明度。这种分解不仅仅是概念上的，它提供了一个可操作的分析框架。

变量透明度关注的是"状态可读性"——模型在计算过程中的每个快照是否可以被人类理解。算法透明度关注的是"过程可重构性"——能否从这些快照中重建模型的完整推理过程。

这种分解的类比就像观看一场魔术表演。变量透明度相当于你能看清魔术师在每个瞬间的双手位置和道具状态。算法透明度则相当于你能理解魔术师的每个动作是如何一步步构成整个魔术效果的。两者都需要，才能真正"破解"这个魔术。

不透明串行深度的量化

不透明串行深度是论文中最重要的定量指标。它的定义直观而精确：在模型的计算过程中，两个连续的"可解释状态"之间发生了多少层的计算。

对于自回归模型（如 Gemma 4），每一个 token 生成步骤都可以被视为一个可解释状态——我们知道输入是什么、输出是什么。在这个框架下，Gemma 4 的不透明串行深度就是单个 token 生成过程中经过的 transformer 层数。

对于 DiffusionGemma，情况复杂得多。扩散模型的计算流程是多个去噪步骤的序列，每个步骤内部有多层的连续潜空间计算。如果将每次去噪步骤的输入和输出（在潜空间中）视为"状态"，那么不透明串行深度就是每个去噪步骤内部的计算层数乘以去噪步骤数。

初始计算得到 28.6 倍这个数字，意味着在"可解释状态"之间，DiffusionGemma 执行了比 Gemma 4 多将近 30 倍的不透明计算。这个差距源于两个因素：扩散模型的去噪步骤数量（通常在几十到几百之间）和每个步骤内部的连续空间计算深度。

Token 瓶颈层：关键的工程创新

论文最重要的技术贡献是提出了 token 瓶颈层（Token Bottleneck）方案。

想象你在阅读一篇用隐形墨水写的长文。每次你只能用紫外线灯照射一小段，看到一小段文字，然后文字又消失在墨水中。传统的 DiffusionGemma 就像这样——信息在连续潜空间中流动，只有在输入和输出端才能看到离散的 token。

Token 瓶颈层的作用相当于在文章的不同段落之间插入了"可读点"。在这些点上，连续潜空间中的信息被强制映射回离散的 token 表示。这样，每一步去噪的结果都可以用人类可理解的 token 序列来表示。

具体实现上，研究者在去噪步骤之间插入了一个额外的模块：它接收连续潜空间的表示，通过一个映射函数将其转换为 token 概率分布，然后从这个分布中采样得到离散的 token 序列。这个 token 序列随后被重新编码回连续表示，传递给下一个去噪步骤。

关键问题是：这种强制映射会不会损失信息，从而影响模型性能？实验结果给出了令人振奋的答案——几乎没有影响。Token 瓶颈层将不透明串行深度从 28.6 倍压缩到 1.1 倍的同时，下游任务的性能保持稳定。

这个结果有一个深层含义：扩散模型在去噪过程中传递的大部分关键信息，实际上可以用离散 token 来充分表示。连续潜空间的优势更多地体现在计算效率和双向推理能力上，而非信息编码能力上。

可解释性案例研究方法

为了探索算法透明度，研究者设计了一系列精心构造的案例研究。这些案例的核心思想是：通过观察模型在特定输入上的行为模式，来推断其内部的推理机制。

每个案例研究都遵循一个类似的模式：设计一组测试输入，这些输入被精心构造以激发特定的推理模式；运行 DiffusionGemma 在这些输入上的推理过程；通过 token 瓶颈层观察中间状态的演变；分析中间状态的变化模式，推断模型的推理策略。

这种方法类似于实验物理学家的研究方式——不能直接"看到"原子，但可以通过设计巧妙的实验来推断原子的结构和行为。研究者同样无法直接"看到" DiffusionGemma 的内部推理过程，但可以通过观察中间状态的变化来推断其算法策略。

非时序推理的发现机制

非时序推理的发现特别值得展开讨论。研究者设计了一组测试案例，其中问题的答案依赖于文本中不同位置的信息之间的关联。在自回归模型中，这类任务通常要求模型在生成后面的 token 时回顾前面的上下文。但扩散模型没有这种限制——它可以在去噪的任何步骤中同时修改任何位置的 token。

通过观察 token 瓶颈层捕获的中间状态，研究者发现了一个有趣的现象：在去噪的早期步骤中，模型会先在文本的某些位置形成"中间结论"，然后在后续步骤中将这些结论"传播"到需要它们的位置。这种传播有时是从右到左的，有时是跳跃式的，完全不受自回归模型那种从左到右的线性约束。

这就像是一个团队在解决一个复杂的谜题。自回归模型的团队采用线性策略——每个人按照座位顺序依次发言，每人只能基于前面所有人的话来贡献自己的想法。而扩散模型的团队则采用网络策略——每个人可以同时思考，然后在下一轮讨论中相互分享自己的初步想法，多轮讨论后逐渐达成共识。

Token 涂抹现象的技术解释

Token 涂抹现象的发现源于对中间状态的精细观察。研究者注意到，在某些去噪步骤中，原本应该只包含单个 token 信息的位置，实际上编码了相邻位置的信息。

从技术角度看，这并不令人意外。扩散模型在连续潜空间中操作，空间中的表示是连续的、高维的向量。在去噪过程中，相邻位置的向量可能会因为共享的上下文信息或相似的噪声模式而产生"耦合"。当这些向量被映射回 token 时，就会出现一个位置的 token 概率分布受到相邻位置影响的现象。

这种涂抹现象的程度和模式提供了关于模型内部计算机制的重要线索。它暗示扩散模型在去噪过程中并非独立地处理每个位置，而是在位置之间建立了某种隐式的信息通道。

实验结果分析

Token 瓶颈层的有效性验证

实验的核心结果之一是 token 瓶颈层有效性的验证。研究者在多个标准基准上比较了三种配置的性能：原始 DiffusionGemma（无瓶颈层）、带瓶颈层的 DiffusionGemma、以及 Gemma 4 自回归模型。

结果表明，添加 token 瓶颈层后的 DiffusionGemma 在所有测试基准上的性能与原始版本基本持平，差异在统计误差范围内。这证实了一个关键假设：扩散模型去噪过程中的关键推理信息可以被离散 token 表示所充分捕获。

这个结果的工程意义也很重要——它意味着在实际部署中，可以无成本地为 DiffusionGemma 增加一层"可解释性外壳"，而不会牺牲性能。

不透明串行深度的对比分析

在变量透明度维度上，原始 DiffusionGemma 的不透明串行深度为 Gemma 4 的 28.6 倍。这个数字将扩散模型的每个去噪步骤视为一个不可分割的计算单元。

引入 token 瓶颈层后，每个去噪步骤的输出都可以被观察和解释。在这种新的"分辨率"下，不透明串行深度骤降至 1.1 倍。残余的 0.1 倍差异来自瓶颈层本身引入的少量额外计算。

这个从 28.6 到 1.1 的跃变不仅仅是一个数字上的改善，它代表了对扩散语言模型透明度认知的根本转变——从"几乎不可理解"到"与自回归模型几乎同等可理解"。

可监控性实验

可监控性测试采用了与 Gemma 4 相同的监控协议。监控器被训练来从模型的输出中检测特定的行为模式，包括安全违规、事实错误和指令遵循失败。

DiffusionGemma 在这些监控测试中的表现与 Gemma 4 相当，表明扩散语言模型的输出同样可以被有效地监控。这个结果对于扩散模型的实际部署具有重要意义——它意味着现有的模型安全监控基础设施可以迁移到扩散语言模型上，而不需要为这种新架构开发全新的监控方案。

算法透明度的案例研究结果

算法透明度的案例研究揭示了扩散模型推理过程的丰富性和复杂性。非时序推理、token 涂抹和中间上下文推理这三种现象的发现，不仅挑战了我们对语言模型推理过程的传统理解，也为未来的可解释性研究开辟了新的方向。

特别有趣的是非时序推理现象。在传统的自回归模型中，推理过程的时序性是理解其行为的一个关键假设——很多可解释性技术（如注意力分析、因果追踪）都依赖于这个假设。扩散模型的非时序推理意味着这些技术需要被重新审视和修改。

与现有工作对比

与自回归模型可解释性研究的对比

自回归模型的可解释性研究已经发展了数年，积累了丰富的工具和方法。注意力可视化、激活修补、因果中介分析等技术已经被广泛应用于 GPT、Gemini、Gemma 等模型的分析中。

扩散语言模型的可解释性研究则处于起步阶段。本文是首批系统性研究扩散语言模型透明度的工作之一。与自回归模型的研究不同，本文需要处理连续潜空间计算带来的独特挑战，也需要发展新的分析工具（如 token 瓶颈层）来应对扩散模型的特殊结构。

一个关键的差异在于推理过程的结构。自回归模型的推理过程是线性的、时序的，这为可解释性分析提供了一个自然的框架。扩散模型的推理过程则是并行的、非时序的，需要全新的分析视角。

与图像扩散模型可解释性研究的对比

图像扩散模型的可解释性研究起步更早，但由于文本和图像的模态差异，很多技术无法直接迁移到语言扩散模型上。

图像扩散模型的研究主要关注生成图像的质量和多样性，而语言扩散模型的透明度研究还需要考虑语义准确性、推理一致性等语言特有的维度。此外，token 瓶颈层这种技术是语言扩散模型独有的，没有图像领域的对应物。

与 DiffusionGemma 其他研究的对比

DiffusionGemma 自身还处于研究的早期阶段。本文的贡献在于为这个新架构提供了第一个系统性的透明度分析。此前的工作主要关注 DiffusionGemma 的性能和效率，本文则从可解释性的角度补充了对这个模型的理解。

潜在应用与影响

对模型部署的影响

扩散语言模型的透明度不逊于自回归模型这一发现，可能会加速扩散语言模型在实际场景中的部署。此前，一个潜在的担忧是扩散模型的"黑箱"程度更高，可能不适用于需要高可解释性的场景（如医疗、法律、金融）。本文的结果表明，这种担忧可能被过度放大了。

Token 瓶颈层技术提供了一种"即插即用"的可解释性增强方案。在实际部署中，可以将这种技术作为一个可选的透明度层，根据应用需求灵活开关。

对可解释性研究的影响

非时序推理、token 涂抹和中间上下文推理这三个新现象的发现，为可解释性研究开辟了全新的方向。这些现象不仅在扩散模型中存在，也引发了关于语言模型推理本质的更深层思考。

例如，非时序推理现象暗示，语言模型的推理过程可能并不需要严格遵循时序结构。这与神经科学研究中关于人类语言处理的一些发现相呼应——人类在理解和生成语言时，也会在不同的时间尺度上进行非线性的信息整合。

对安全研究的影响

可监控性结果对 AI 安全研究具有直接意义。扩散语言模型在安全监控方面的表现与自回归模型相当，这意味着现有的安全评估和监控体系可以扩展到扩散语言模型上。随着扩散语言模型能力的提升和应用的扩大，这种可迁移性将变得越来越重要。

对模型设计的影响

Token 瓶颈层的成功暗示了一个更深层的设计原则：在连续空间计算和离散符号表示之间建立桥梁，不仅有助于透明度，也可能是一种有用的归纳偏置。未来的研究可能会探索将这种桥梁结构作为模型设计的一个标准组件。

局限性与未来方向

当前研究的局限性

论文的作者坦诚地指出了几个重要的局限性。

首先，算法透明度的分析还处于初步阶段。虽然发现了非时序推理、token 涂抹等现象，但对这些现象的理解还停留在定性层面。一个完整的算法透明度框架需要能够系统性地预测和解释模型在任意输入上的行为，这还远未达到。

其次，案例研究的方法虽然有效，但难以规模化。每个案例都需要精心设计和人工分析，这限制了研究的覆盖面。未来需要发展更自动化的分析方法。

第三，Token 瓶颈层虽然有效，但其理论基础尚不完全清楚。为什么连续潜空间中的信息可以被离散 token 充分表示？这个问题的答案可能揭示扩散语言模型更深层的工作机制。

第四，本文的研究仅限于 DiffusionGemma 这一个模型。扩散语言模型是一个快速发展的领域，不同的架构设计和训练方法可能导致不同的透明度特性。需要更多的研究来验证本文的发现是否具有普遍性。

未来研究方向

基于本文的发现和局限性，有几个值得关注的未来方向。

自动化算法分析：发展能够自动识别和分类扩散模型推理模式的工具。这可能涉及将可解释性技术与形式化验证方法相结合。

透明度引导的训练：利用透明度指标作为训练信号，鼓励模型发展更易理解的推理策略。这可能在不牺牲性能的情况下提升模型的透明度。

跨架构比较研究：在更多扩散语言模型架构上重复本文的分析，建立扩散语言模型透明度的一般性理论。

人机协作研究：研究人类如何利用扩散模型的中间状态来理解和修正模型的推理。Token 瓶颈层产生的中间表示是否真的有助于人类的理解？这需要用户研究来验证。

安全性深度研究：虽然可监控性结果令人鼓舞，但扩散模型特有的推理模式（如非时序推理）是否可能引入新的安全风险？这需要更深入的安全评估。

总结

扩散语言模型代表了语言建模领域的一个重要新方向，但其推理过程的透明度一直是一个未解之谜。本文通过将透明度分解为变量透明度和算法透明度两个维度，为这个问题提供了一个系统性的分析框架。

研究结果传递了一个令人鼓舞的信号：扩散语言模型的变量透明度可以通过简单的 token 瓶颈层技术大幅提升，达到与自回归模型几乎同等的水平。算法透明度方面，扩散模型展现出了一系列独特的推理现象——非时序推理、token 涂抹、中间上下文推理——这些现象虽然增加了分析的复杂性，但也为理解语言模型的推理本质提供了新的视角。

对于实际应用而言，扩散语言模型在可监控性方面与自回归模型表现相当，这意味着现有的安全监控基础设施可以扩展到这类新模型上。Token 瓶颈层技术提供了一种低成本、无损性能的透明度增强方案，为扩散语言模型在高风险场景中的部署提供了技术保障。

透明度研究从来不是一个可以"一劳永逸"解决的问题，它是一个持续的、动态的过程。随着扩散语言模型能力的不断提升和应用场景的不断拓展，对其推理过程的理解也需要不断深化。本文为这个方向奠定了坚实的基础，但更重要的是，它揭示了一个广阔的研究空间，等待着更多的探索者来填充。