技术文章 11

分布偏移下如何让混合专家模型校准可靠?ICML 2026新研究给出答案

ICML 2026论文研究了混合专家模型(MoE)在分布偏移下的校准问题。核心发现:硬路由MoE中专家校准可保证整体校准,软路由中则不然。研究者提出对抗性重加权方法,显著改善准确率-校准度权衡,对医疗AI、自动驾驶等高风险场景具有重要应用价值。

Multi-LCB:把代码能力评测从Python扩展到12种编程语言,大模型的「偏科」问题暴露无遗

Multi-LCB将LiveCodeBench从Python扩展到12种编程语言,评估24个大语言模型后发现三个关键现象:Python过拟合(模型在Python上表现远超其他语言)、语言特定的数据污染、以及多语言性能的巨大落差。该基准测试被ICLR 2026接收,为评估模型真正的跨语言编程能力提供了严谨工具。

分布漂移下如何让混合专家模型保持校准?ICML 2026最新研究揭示路由机制的关键影响

本文解读ICML 2026论文,研究MoE模型在分布漂移下的校准问题。核心发现:硬路由MoE中专家级校准足以保证整体校准,但软路由不行。作者提出对抗性重加权方法改善软路由校准,在准确率-校准权衡上取得显著改善。

DeepSWIP:神经概率逻辑程序中的反事实推理新突破

神经符号系统(如DeepProbLog)将神经感知与概率逻辑结合,但标准推理仅限于关联层面。DeepSWIP引入了单世界反事实语义,通过神经物化将神经谓词转化为普通ProbLog选择,再应用SWIP和加权模型计数(WMC)计算反事实。实验表明,该方法在MPI3D数据集上精确匹配DeepTwin构造,推理速度提升2.14倍。HOV实验揭示了神经校准退化对反事实估计的偏差影响。

推荐系统新范式:G2Rec如何用图结构与语义分词统一建模用户兴趣

生成式推荐是工业推荐系统的新兴范式,但现有方法难以同时有效组织和注入复杂的用户行为上下文与物品语义信息。本文解读G2Rec框架:通过统一的图协同建模与语义分词方法,将全局用户共参与图与物品语义分词结合,在无需真实用户兴趣标注的情况下,实现更全面、更准确的用户兴趣原型捕获。该方法已在多个产品线在线部署,并在公开数据集上超越现有方法。

QCPIKAN:量子-经典物理信息Kolmogorov-Arnold网络求解偏微分方程

QCPIKAN是首个量子-经典混合的物理信息Kolmogorov-Arnold网络,用于求解偏微分方程。该框架结合Chebyshev多项式KAN层和参数化量子电路,将物理约束嵌入训练损失。理论证明其高频误差收敛达到指数速率,在多孔介质渗流三类典型场景中展现出优于现有量子-经典物理信息神经网络的性能。

scGTN:深度孪生图Transformer网络革新单细胞RNA测序聚类

scGTN利用深度孪生图Transformer网络和最优传输策略进行单细胞RNA测序聚类,显式整合基因表达和细胞间结构信息,已被IJCAI 2026接收。

李代数注意力机制:当Token成为群元素,Transformer遇上李群

提出李代数注意力机制,首次将注意力Token直接定义为矩阵李群元素,用闭式代数范数替代学习核函数,参数量减少50-80倍,首次处理仿射群等非紧致非交换群。

AI驱动的符号搜索革命:ASYS如何超越传统方法刻画偏微分方程

ASYS框架利用AI智能体自动发现偏微分方程解的解析表达式,通过进化搜索和梯度优化相结合,在五个PDE问题上产生可解释的数学表示,开创超越传统数值模拟和神经网络近似的新范式。

DFT训练的神经网络势能能否准确模拟水溶液中镁离子的行为?

MACE神经网络势能成功再现了Mg²⁺水溶液的结构、扩散和水交换动力学,但在溶剂化自由能方面仍有局限。

DiffusionGemma的推理透明度:扩散模型真的比自回归模型更难理解吗?

研究表明,扩散语言模型DiffusionGemma的推理过程并不像表面看起来那样不透明——通过可解释的token瓶颈,其不透明度仅比Gemma 4高1.1倍。