当专家团遇上分布漂移：混合专家模型的校准之道

Q: 你真的相信模型的概率输出吗？

>你真的相信模型的概率输出吗？假设你是一家自动驾驶公司的工程师。你的感知系统对前方物体的分类结果是：95%概率是行人，3%概率是自行车，2%概率是路标。如果这个概率是准确的——也就是说，在所有模型说"95%是行人"的情况下，确实有95%的情况是行人——那么你可以安全地做出紧急制动的决策。 但如果这个概率是"虚假精确"的呢？如果模型输出95%置信度，但实际上只有70%的情况确实是行人？在自动驾驶这种安全关键场景中，这种概率失准可能导致灾难性后果。 这就是"校准"（Calibration）问题的核心：模型输出的概率是否与其实际准确率一致？

Q: 什么是校准？一个直觉性的解释

>什么是校准？一个直觉性的解释校准的数学定义是：对于一个校准良好的分类器，当它输出概率p表示"我有p%的把握认为这个样本属于类别A"时，实际属于类别A的比例确实应该是p%。 一个常见的可视化工具是"可靠性图"（Reliability Diagram）。横轴是模型输出的概率，纵轴是实际的正确率。完美校准的模型应该落在对角线上。如果曲线在对角线之上，说明模型过于保守（低估了自己的能力）；如果在对角线之下，说明模型过于自信（高估了自己的能力）。

TL;DR

混合专家模型（MoE）通过路由机制将输入分配给不同的专家子网络处理，但当数据分布发生变化时，模型的概率预测是否还能信？这篇ICML 2026论文深入研究了MoE在分布漂移下的校准问题。核心发现：硬路由MoE中，专家级别的校准足以保证整体模型的校准；但软路由MoE中，这个保证不成立。论文提出了一种对抗重加权方法，通过惩罚路由聚合后的校准误差来改善这一问题，在准确率-校准权衡上取得了显著提升。

论文信息

标题：Toward Calibrated Mixture-of-Experts Under Distribution Shift
作者：Gina Wong, Drew Prinster, Suchi Saria, Rama Chellappa, Anqi Liu
分类：cs.AI, cs.LG
发表：ICML 2026
日期：2026年6月18日
链接：https://arxiv.org/abs/2606.20544v1

研究背景与动机

你真的相信模型的概率输出吗？

假设你是一家自动驾驶公司的工程师。你的感知系统对前方物体的分类结果是：95%概率是行人，3%概率是自行车，2%概率是路标。如果这个概率是准确的——也就是说，在所有模型说"95%是行人"的情况下，确实有95%的情况是行人——那么你可以安全地做出紧急制动的决策。

但如果这个概率是"虚假精确"的呢？如果模型输出95%置信度，但实际上只有70%的情况确实是行人？在自动驾驶这种安全关键场景中，这种概率失准可能导致灾难性后果。

这就是"校准"（Calibration）问题的核心：模型输出的概率是否与其实际准确率一致？一个完美校准的模型，当它说"我有p%的把握"时，它确实有p%的把握。

MoE的崛起与校准盲区

混合专家模型（Mixture of Experts, MoE）已经成为大模型时代的主流架构。GPT-4、Mixtral、DeepSeek-V2等明星模型都采用了MoE结构。MoE的核心思想是：不是一个巨大的通用模型处理所有输入，而是让多个"专家"子网络各司其职，由一个"路由器"决定每个输入应该交给哪个专家处理。

这种设计带来了巨大的效率优势——每次推理只激活一部分参数，计算成本远低于同等规模的密集模型。但它也引入了一个新的复杂性：路由器的决策过程。

路由器可以是"硬路由"（每个输入只分配给一个专家）或"软路由"（每个输入由多个专家加权处理）。在实际应用中，软路由更常见，因为它允许更平滑的决策边界和更好的梯度流。

然而，当数据分布发生变化时——比如训练数据来自城市道路，但部署环境是乡村道路——路由器和专家的行为都可能发生不可预测的变化。路由器可能把输入分配给不合适的专家，专家自身也可能在新分布上表现异常。这种双重不确定性使得MoE的校准问题比单一模型更加复杂。

分布漂移：现实世界的常态

分布漂移不是边缘情况，而是现实世界的常态。

时间漂移：用户行为随季节变化，冬天和夏天的购物模式截然不同
领域漂移：模型在英文数据上训练，但需要处理中文输入
对抗漂移：恶意用户故意改变输入模式来欺骗模型
传感器漂移：自动驾驶车辆在不同天气、光照条件下的感知数据分布不同

对于MoE模型来说，分布漂移可能同时影响路由器和专家。路由器可能在新分布上做出错误的路由决策，而某些专家可能在新分布上比其他专家退化得更严重。这种交互效应使得MoE的校准分析比单一模型困难得多。

这篇论文要回答的问题

在硬路由MoE中，专家级别的校准是否足以保证整体模型的校准？
在软路由MoE中呢？
如果不够，有什么方法可以改善？

核心发现

发现一：硬路由的优雅保证

论文证明了一个漂亮的理论结果：在硬路由MoE中，如果每个专家在自己的负责域上是校准的，那么整体模型在广泛的分布漂移下也是校准的。

直觉上，这是因为硬路由是"独占"的——每个输入只交给一个专家处理，不存在专家之间的概率混合。只要每个专家在自己的领域内是可信的，整体模型就是可信的。

这就像一个专科医院：只要每个科室的医生在自己的专业领域内诊断准确，整个医院的诊断就是准确的。心脏科医生不需要懂骨科，骨科医生不需要懂神经科——各司其职，互不干扰。

发现二：软路由的校准陷阱

但对于软路由MoE，情况完全不同。论文证明，即使每个专家都是完美校准的，软路由聚合后的整体模型也可能严重失准。

原因在于：软路由对多个专家的输出进行加权平均。如果路由器在分布漂移下将权重分配给了不合适的专家，加权平均后的概率就会失准。

举个具体的例子：假设输入是一张模糊的照片，路由器分配了60%权重给"清晰图像专家"（该专家认为有80%概率是猫）和40%权重给"模糊图像专家"（该专家认为有70%概率是狗）。加权后的结果是：60%×80% + 40%×70% = 76%概率是猫。但实际上，由于图片是模糊的，"清晰图像专家"的判断可能完全不可靠，真实概率可能更接近"模糊图像专家"的判断——即70%概率是狗。

两个专家各自都是校准的，但路由器错误的权重分配导致了整体模型的失准。

发现三：对抗重加权的解决方案

针对软路由的校准问题，论文提出了一种"对抗重加权"（Adversarial Reweighting）方法。

核心思路是：在训练过程中，模拟最坏情况下的分布漂移，然后训练模型在这种最坏情况下仍然保持校准。

具体做法是：引入一个对抗性的权重分配器，它会找到让模型校准误差最大的输入分布。然后，模型在这个对抗分布上进行额外的校准训练。经过多轮对抗训练后，模型在各种分布漂移下都能保持较好的校准。

这就像给运动员进行极限训练——如果你能在最恶劣的条件下保持稳定，那么在正常条件下就更没问题了。

发现四：准确率-校准的帕累托改善

实验结果表明，对抗重加权方法不仅改善了校准，还不会显著损害准确率。在大多数实验场景中，模型在准确率-校准的帕累托前沿上取得了更好的位置。

这意味着：我们不需要在"准确"和"校准"之间二选一，对抗重加权可以同时改善两者。

技术方法详解

什么是校准？一个直觉性的解释

校准的数学定义是：对于一个校准良好的分类器，当它输出概率p表示"我有p%的把握认为这个样本属于类别A"时，实际属于类别A的比例确实应该是p%。

一个常见的可视化工具是"可靠性图"（Reliability Diagram）。横轴是模型输出的概率，纵轴是实际的正确率。完美校准的模型应该落在对角线上。如果曲线在对角线之上，说明模型过于保守（低估了自己的能力）；如果在对角线之下，说明模型过于自信（高估了自己的能力）。

MoE的路由机制

硬路由：每个输入x被分配给一个专家E_k，其中k = argmax_j g_j(x)，g_j(x)是路由器对输入x分配给专家j的分数。输出是y = E_k(x)。

软路由：每个输入x由所有专家加权处理，y = Σ_j w_j(x) × E_j(x)，其中w_j(x)是路由器分配的权重，满足Σw_j = 1。

在分布漂移下，路由器的权重分配w_j(x)可能发生变化。如果训练分布和测试分布不同，路由器可能在测试分布上做出与训练时截然不同的路由决策。

硬路由校准的理论保证

论文的核心理论结果（简化版）：

定理：假设硬路由MoE包含K个专家，每个专家E_k在自己的负责域D_k上是(ε_k)-校准的（即校准误差不超过ε_k）。那么，在分布漂移后的新分布P'下，如果路由器仍然将输入正确地分配到合适的专家，整体MoE的校准误差不超过max_k ε_k。

这个保证的条件是：路由器在新分布上仍然能做出正确的路由决策。如果路由器也受到分布漂移的影响，这个保证可能不成立。但论文进一步证明，在一类"温和"的分布漂移下（即不改变输入的本质类别，只改变类别的比例），路由器的决策通常是稳定的。

软路由校准失败的构造性证明

论文给出了一个清晰的构造性反例，说明为什么软路由的校准可能失败。

假设有两个专家E_1和E_2，都是完美校准的。有一个输入x，E_1认为有90%概率属于类别A，E_2认为有10%概率属于类别A。

在训练分布中，路由器分配50%/50%的权重，聚合结果是50%×90% + 50%×10% = 50%。如果训练分布中，这类输入确实有50%属于类别A，那么聚合结果是校准的。

但在分布漂移后，路由器的权重变成了80%/20%（偏向E_1），聚合结果是80%×90% + 20%×10% = 74%。但如果新分布中这类输入的实际类别A比例变成了30%（分布漂移改变了类别比例），那么74%的概率预测就严重失准了。

关键问题在于：路由器的权重变化和实际分布的变化可能是不一致的。路由器不知道分布已经变了，它可能基于过时的特征来分配权重。

对抗重加权的技术细节

对抗重加权的目标函数是：

min_θ max_w Σ_i w_i × L_cal(f_θ(x_i), y_i)

其中θ是模型参数，w是对抗权重（满足w_i ≥ 0, Σw_i = 1），L_cal是校准损失。

内层最大化寻找最坏情况的分布（通过调整权重w），外层最小化在这种最坏分布下的校准损失。

实际训练中，采用交替优化：

固定θ，通过梯度上升更新w，找到让校准误差最大的分布
固定w，通过梯度下降更新θ，在这种分布下优化校准

经过多轮交替后，模型在各种可能的分布漂移下都能保持较好的校准。

与温度缩放的关系

温度缩放（Temperature Scaling）是一种常用的后处理校准方法。它通过一个温度参数T来缩放模型的logits，使得输出概率更校准。

论文的对抗重加权可以看作温度缩放的推广——它不是用单一的温度参数来缩放所有输入，而是根据输入的特征和路由状态，动态地调整校准策略。这种自适应性使得对抗重加权在分布漂移下比固定温度缩放更有效。

实验结果分析

实验设置

研究者在多个数据集和多种分布漂移设置下进行了实验：

数据集：CIFAR-10/100（图像分类）、20 Newsgroups（文本分类）、Adult Income（表格数据）
MoE架构：2/4/8个专家，硬路由和软路由两种配置
分布漂移类型：协变量漂移（输入分布变化）、标签漂移（类别比例变化）、对抗漂移（故意改变输入模式）
评估指标：ECE（Expected Calibration Error，越低越好）、准确率

关键结果

硬路由MoE：

专家级别校准时：ECE = 0.023（良好）
无校准时：ECE = 0.156（糟糕）
结论：专家校准确实能保证整体校准

软路由MoE：

专家级别校准时：ECE = 0.089（仍然较高）
对抗重加权后：ECE = 0.031（显著改善）
准确率变化：< 0.5%（几乎无损）

不同分布漂移类型的比较：

协变量漂移：对抗重加权改善最大（ECE降低58%）
标签漂移：对抗重加权改善中等（ECE降低42%）
对抗漂移：对抗重加权改善最小（ECE降低31%），但仍优于基线

消融实验

对抗训练的轮数：3-5轮即可收敛，更多轮数收益递减
对抗权重的约束：约束越强（w越接近均匀分布），校准改善越小但准确率损失越少
专家数量的影响：专家越多，校准问题越严重，对抗重加权的改善也越明显

与现有工作对比

与单一模型校准的对比

单一模型的校准方法（温度缩放、Platt缩放、等调回归）在分布漂移下通常会退化。论文的对抗重加权方法通过显式建模分布漂移，能够更好地处理这种退化。

与MoE研究的对比

先前的MoE研究主要关注负载均衡（确保每个专家处理的样本量相近）和专家利用率，对校准问题关注较少。这篇论文首次系统地研究了MoE在分布漂移下的校准行为。

与鲁棒学习的对比

对抗重加权与鲁棒学习中的分布鲁棒优化（DRO）有相似之处，但目标不同：DRO关注最坏情况下的损失，而对抗重加权关注最坏情况下的校准误差。论文证明了这两个目标可能不一致——一个在最坏情况下损失很低的模型，校准可能仍然很差。

潜在应用与影响

医疗AI

医疗诊断系统需要准确的概率估计来辅助医生决策。如果模型说"90%概率是恶性肿瘤"，医生需要能信任这个概率。对抗重加权方法可以帮助医疗MoE模型在不同患者群体间保持校准。

金融风控

信用评分模型需要校准的概率来计算预期损失。如果模型输出的违约概率失准，风险定价就会出错。对抗重加权可以帮助模型在经济周期变化中保持校准。

自动驾驶

感知系统的概率输出需要被规划系统直接使用。如果"95%概率是行人"实际上是"70%概率是行人"，规划系统的决策可能是危险的。

大模型的可信度

随着MoE架构在大模型中的广泛应用（GPT-4、Mixtral等），MoE的校准问题直接影响大模型的可信度。这篇论文的结果为改善大模型的概率输出质量提供了理论基础和实践方法。

局限性与未来方向

计算开销

对抗重加权需要额外的训练轮次来寻找最坏情况分布，这增加了训练成本。对于大规模MoE模型，这个开销可能显著。

对抗分布的代表性

对抗重加权假设最坏情况分布可以通过权重重新分配来模拟。但某些分布漂移（如全新的输入类型）可能无法通过这种机制来表示。

理论保证的边界

硬路由的校准保证依赖于"路由器在新分布上仍然正确"的假设。如果分布漂移严重到连路由器都失效了，这个保证就不成立了。

动态校准

当前方法是在训练时一次性优化的。未来可以探索在线校准——在部署过程中持续监控和调整校准状态。

总结

这篇ICML 2026论文系统地研究了混合专家模型在分布漂移下的校准问题，提出了两个关键理论结果和一个实用的解决方案。

理论上，它证明了硬路由MoE有优雅的校准保证（专家校准→整体校准），但软路由MoE没有这个保证（专家校准≠整体校准）。实践上，它提出了对抗重加权方法来改善软路由MoE的校准，在准确率-校准权衡上取得了显著提升。

对于使用MoE架构的AI系统——从大语言模型到自动驾驶感知——这篇论文提供了一个重要的提醒：概率输出的可靠性不能想当然，需要显式的校准机制来保证。在安全关键的应用中，这一点尤为重要。