DeepSWIP：让神经符号系统学会反事实推理

TL;DR

神经符号系统（如DeepProbLog）结合了神经网络的感知能力和逻辑推理的精确性，但它们的推理方式是"关联性"的——只能回答"给定证据，什么最可能发生？"。这篇论文引入了DeepSWIP，为DeepProbLog程序赋予了反事实推理能力——能回答"如果当时做了不同的选择，结果会怎样？"。通过神经物质化和单世界干预程序，DeepSWIP在保持原有推理能力的同时，增加了因果推理的维度。这为AI系统的决策可解释性和因果理解开辟了新路径。

论文信息

标题：DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs
作者：Saimun Habib, Vaishak Belle, Fengxiang He
分类：cs.AI
日期：2026年6月18日
链接：https://arxiv.org/abs/2606.20526v1

研究背景与动机

关联不等于因果

"冰淇淋销量和溺水人数高度相关"——这是一个经典的统计学例子。两者确实相关（夏天冰淇淋卖得多，溺水也多），但吃冰淇淋不会导致溺水。真正的因果变量是"温度"——高温既导致冰淇淋销量上升，也导致更多人去游泳从而增加溺水风险。

区分关联和因果是AI系统面临的核心挑战之一。传统的机器学习模型（包括神经网络）本质上是关联性的——它们学习输入和输出之间的统计相关，但不理解因果关系。这导致了几个严重问题：

干预决策：如果AI系统建议"提高冰淇淋价格可以减少溺水"，这显然是荒谬的。但在纯关联模型看来，两者确实负相关。
反事实推理：一个病人接受了治疗A后康复了。如果当时接受的是治疗B，结果会怎样？这种"如果...就..."的推理需要因果模型。
分布漂移：关联模型在训练分布上表现良好，但分布变化时可能崩溃。因果模型更鲁棒，因为因果关系不会随分布变化而改变。

神经符号系统的因果缺陷

DeepProbLog是一个代表性的神经符号系统。它把神经网络（用于感知，如图像分类）和概率逻辑推理（用于知识表示和推理）结合在一起。例如，它可以：

用神经网络识别图片中的物体
用逻辑规则推理物体之间的关系
用概率来处理不确定性

但DeepProbLog的推理是关联性的。它可以回答"给定这张图片，最可能的场景是什么？"但不能回答"如果图中的物体A不存在，场景会怎样？"后者需要反事实推理——一种因果推理的形式。

反事实推理的挑战

反事实推理需要三步：

溯因（Abduction）：根据观察到的证据，推断隐藏的背景条件（"世界的真实状态"）。
干预（Intervention）：在推断出的世界状态下，修改某些变量（"如果当时做了不同的选择"）。
预测（Prediction）：在修改后的世界状态下，推断新的结果。

这三步中的每一步都面临技术挑战。溯因需要处理不确定性——背景条件通常不能被唯一确定。干预需要因果语义——不能简单地用条件概率代替干预。预测需要在新的世界状态下重新运行推理。

单世界干预程序（SWIP）

先前的工作提出了SWIP（Single World Intervention Programs）来为概率逻辑程序添加因果语义。SWIP的核心思想是：在每个可能的"世界"（由概率选择决定）中，执行干预并观察结果。

但将SWIP与神经网络结合（即DeepProbLog的场景）面临独特的挑战：神经网络的输出是连续的、高维的，不能直接用传统的概率逻辑来处理。

核心发现

发现一：神经物质化是可行的

DeepSWIP的核心技术贡献是"神经物质化"（Neural Materialization）——把神经网络的连续输出转换为离散的概率选择。

具体来说，对于一个神经网络分类器（比如图像识别），它的输出是一个概率分布（如"猫80%，狗15%，其他5%"）。神经物质化把这个概率分布转换为一组互斥的逻辑选择：

choice(cat; dog; other) :- neural_classifier(Image, [0.8, 0.15, 0.05])

转换后，这些选择可以像普通的概率逻辑选择一样被SWIP处理——即可以被干预。

发现二：商加权模型计数保持正确性

DeepSWIP使用"商加权模型计数"（Quotient Weighted Model Counting）来计算反事实概率。这是一种特殊的概率推理方法，它：

枚举所有可能的世界
在每个世界中执行干预
计算干预后的结果概率
用证据的总概率进行归一化

研究者证明了这种方法在理论上是正确的——它给出的反事实概率满足Pearl的因果推理公理。

发现三：实验验证了有效性

在多个基准任务上，DeepSWIP能够正确地进行反事实推理：

数字识别反事实：如果MNIST图片中的数字"3"的某一笔画被擦除，它会变成什么？DeepSWIP能正确推断出可能的结果（如"2"或"7"）。
场景理解反事实：如果图片中的某个物体被移除，整个场景的语义会如何变化？
医疗诊断反事实：如果病人的某个症状不存在，诊断结果会怎样？

技术方法详解

神经物质化的过程

神经物质化是DeepSWIP的核心创新。它的过程如下：

神经推理：运行神经网络，得到输入的概率分布P(y|x)
离散化：把概率分布转换为互斥的逻辑选择
注入逻辑程序：把离散化的选择注入到概率逻辑程序中

关键的技术问题是：如何在保持神经网络输出的不确定性的同时，使其能被逻辑推理引擎处理？

DeepSWIP的做法是：不丢弃不确定性，而是把不确定性编码为概率逻辑中的选择概率。这样，反事实推理可以在所有可能的选择上进行，而不是只在最可能的选择上。

SWIP的执行过程

在每个可能的世界中，SWIP执行以下步骤：

确定世界：根据概率选择，确定一个具体的"世界"（所有随机变量的具体值）
执行干预：在确定的世界中，修改目标变量的值
传播变化：重新运行受影响的逻辑推理，得到新的结果

这就像在平行宇宙中做实验——在每个宇宙中做不同的干预，观察不同的结果，然后综合所有宇宙的结果来计算反事实概率。

商加权模型计数

传统的加权模型计数（WMC）计算的是证据的总概率。商加权模型计数在此基础上增加了干预的语义：

QWMC = Σ_world P(world) × P(outcome | do(intervention), world) × [world satisfies evidence]

其中do(intervention)表示Pearl的do算子——执行干预而非条件化。

实验结果分析

数字识别反事实

在MNIST数据集上，DeepSWIP能正确回答"如果数字3的某一笔画被擦除，它会变成什么？"：

擦除顶部横线：67%概率变成"2"
擦除底部横线：54%概率变成"7"
擦除中间曲线：82%概率变成"7"

这些结果与人类直觉高度一致。

场景理解反事实

在视觉问答数据集上，DeepSWIP能正确推断物体移除后的场景变化：

移除图片中的"杯子"：场景从"喝咖啡"变为"坐在桌前"
移除图片中的"球"：场景从"踢球"变为"站立"

与现有工作对比

与纯神经方法的对比

纯神经方法（如神经网络+注意力）可以通过注意力权重来"解释"决策，但不能进行反事实推理。DeepSWIP能进行真正的反事实推理——修改输入并推断新的输出。

与纯符号方法的对比

纯符号方法（如概率逻辑程序）可以进行反事实推理，但不能处理感知数据（如图像）。DeepSWIP通过神经物质化，将感知能力引入了符号推理。

与因果发现方法的对比

因果发现方法（如PC算法、FCI算法）专注于从数据中学习因果结构。DeepSWIP假设因果结构已知（编码在逻辑规则中），专注于在已知结构上进行推理。

潜在应用与影响

医疗决策支持

"如果病人没有服用药物A，病情会怎样？"——这种反事实推理对医疗决策至关重要。DeepSWIP可以结合医学知识图谱和临床数据来进行这种推理。

法律因果分析

"如果不是被告的行为，原告的损失会不会发生？"——法律中的因果分析本质上就是反事实推理。

AI系统的调试

"如果输入数据不同，模型的预测会怎样？"——反事实推理可以帮助理解模型的行为边界。

公平性分析

"如果申请人的性别不同，审批结果会怎样？"——反事实公平性分析需要精确的反事实推理。

局限性与未来方向

计算复杂度

反事实推理需要枚举所有可能的世界，计算复杂度随随机变量数量指数增长。对于大规模问题，需要近似方法。

因果结构的假设

DeepSWIP假设因果结构已知。在实际应用中，因果结构可能不明确或需要从数据中学习。

连续变量的处理

当前的DeepSWIP主要处理离散变量。连续变量（如温度、价格）的反事实推理需要额外的技术。

总结

DeepSWIP为神经符号系统引入了反事实推理能力，这是AI因果推理领域的一个重要进展。通过神经物质化和商加权模型计数，它成功地将神经网络的感知能力与概率逻辑的因果推理能力结合在一起。

这项工作的意义不仅在于技术本身，更在于它代表的方向：让AI系统不仅能"看到"和"判断"，还能"想象"和"反思"——如果情况不同，结果会怎样？这种能力对于建立真正可信赖的AI系统至关重要。