返回首页

可解释元学习破解多目标化学搜索难题:洛斯阿拉莫斯团队如何用线性模型高效筛选数十万金属有机配合物

在药物设计、材料科学和能源技术领域,分子发现始终是推动进步的核心驱动力。理论上,可合成分子的空间估计超过10的60次方种候选结构——这个数字比可观测宇宙中的原子数量还要庞大得多。穷举法在这个组合爆炸面前毫无意义:即便只是枚举其中一小部分候选结构,代价就已经高得无法承受,更不用说用高精度量子化学方法逐一评估它们的性质了。洛斯阿拉莫斯国家实验室计算与人工智能分部的Antonio Varagnolo、Yulia Pimonova、Michael G. Taylor等人在2026年6月18日提交的论文"Interpretable - for Multi-Objective Chemical "中,提出了一套模块化搜索流水线,将可解释的线性元学习模型、自适应置信度不确定性量化与高效全局优化框架相结合,首次在多目标化学搜索场景中部署线性元学习,实现了在极少量数据下快速适应新目标的分子筛选能力。

问题的本质:为什么现有方法不够好

机器学习和深度学习模型如今已经广泛用于加速分子候选物的评估。生成模型也提供了一种互补途径,无论是作为独立工具还是嵌入优化循环内部。但这些方法共享一个根本性的局限:它们通常需要大量、任务特定的数据集。虽然预训练基础模型可以降低已知属性类别的数据成本,但在科学发现的早期阶段,所需的样本量仍然极少能够凑齐。深度模型训练昂贵且难以解释——这种昂贵性在量子化学已经带来巨大计算压力的背景下更加不堪重负。缺乏可解释性则与搜索任务经常需要的人机交互式探索形成紧张关系。

另一个叠加的挑战涉及分子发现的多目标本质。真实的材料设计问题极少能简化为单一目标:候选分子可能同时需要满足反应性、稳定性、可合成性、毒性和成本等多个约束。多目标搜索产生一个帕累托前沿(Pareto front),即一组互不支配的解,但每引入一个新目标通常需要从头拟合一个全新的模型。这种重复建模的代价在目标数量增加时变得不可接受。

与此同时,化学空间中不确定性校准面临的困难不容小觑。最优候选分子通常恰好位于分子分布的尾部区域,在那里数据驱动的预测和不确定性校准尤为困难。理想候选物甚至可能完全落在训练分布之外,因为搜索过程中随时可能出现训练集中不存在的原子子结构。标准校准技术假设分布内查询,在分布外场景中往往失效,这就需要能够在搜索演化过程中动态调整置信度的自适应策略。

线性元学习:可解释且高效的替代方案

论文的核心创新在于将线性图基序(graphlet)代理模型与元学习框架LAMeL相结合。图基序指纹通过枚举分子图中的子图出现情况来构建可解释的特征空间。每个不同的图基序定义一个特征,为每个分子产生一个高维(约10000个特征)但稀疏的描述符向量。这个特征空间的丰富表达能力使得在其上构建的线性模型能够达到与深度模型相当的预测性能,同时拟合速度快几个数量级且保留完全的可解释性。

在此基础上,作者采用线性元学习框架。首先对术语进行澄清:支撑任务(support task)指元训练期间使用的任何学习任务,包括搜索目标(即最终用于排名候选物的代理模型)和辅助任务(对应容易估算但不直接优化的属性,帮助定义共享子空间结构)。特殊化任务(specialization task)是通常数据稀缺的学习问题,通过适应从支撑任务构建的元模型来拟合。

对每个支撑任务,在图基序指纹空间中拟合岭回归,获得系数向量。该方法的核心假设是:这些支撑系数向量位于一个编码先验化学知识的低维子空间中,可以作为特殊化任务的归纳偏置。特殊化任务的元系数通过以下方式构建:将支撑系数围绕其均值居中后,平行分量通过在支撑系数张成的子空间中求解一个规模远小于特征维度的小型岭问题来获得,强制与支撑任务共享的低维结构对齐;正交分量则直接在完整指纹空间中拟合残差,允许超越支撑子空间的任务特定校正。总计算成本大约是单次岭回归拟合的两倍。

在测试问题中,作者使用构象在水、丙酮和己烷中的溶解度性质作为辅助支撑成分——这些性质一旦构象建成就可以廉价计算。其他辅助性质也可以是通过RDKit等工具包计算的快速低保真近似值。

贝叶斯自举法:不确定性量化的利器

与神经网络等过参数化模型不同(其不确定性由随机训练动态诱导),线性代理模型中不确定性的主要来源是训练和测试数据分布之间的不对齐(例如训练集中化学结构覆盖不完整),以及最大允许子图大小带来的限制。贝叶斯自举法(Bayesian bootstrapping)提供了一个稳健的、与模型无关的框架来量化上述数据驱动的不确定性。

与依赖带放回重采样的经典自举法不同,贝叶斯自举法从狄利克雷分布中为训练点分配权重。实际上,每个集成成员使用一组不同的狄利克雷采样权重进行拟合,产生不同的有效训练分布和相应的不同模型系数。集中参数α控制采样权重的变异性,编码关于观测数据集的先验置信度。大的α值产生接近均匀的权重,对应于对经验数据分布近似真实底层分布的高置信度。相反,小的α值产生稀疏权重向量,导致个别模型严重依赖数据子集并增加集成预测的方差。在温和的正则性假设下和足够大的集成规模下,中心极限定理论证表明集成均值预测对α不敏感,而预测方差随α减小单调增加。

贝叶斯自举法提供了一种将经验数据分布中的不确定性传播到预测不确定性的机制。该方法统一应用于基础模型和元模型,产生的元系数拟合总数为目标数乘以自举样本数,支撑系数总数为目标数乘以自举样本数加上辅助任务数。

高效全局优化与多目标获取函数

多目标优化(MOO)在计算科学和工程中频繁出现,多个竞争目标必须在没有显式解析模型的情况下进行优化。基于帕累托的方法是此场景中的常见策略,因为它们旨在识别一组多样化的非支配解来逼近帕累托前沿,从而保留目标之间的权衡。

优化流水线遵循高效全局优化(EGO)范式,该范式迭代地结合代理模型与获取函数,在有限评估预算下平衡探索与开发。EGO通常使用高斯过程代理实现,但高斯过程不适合本文的设置,因为图基序指纹是高维且稀疏的。作者改用线性元模型的贝叶斯自举集成。虽然所得集成在严格意义上不是贝叶斯的,但它们仍然支持通过改进概率(PoI)和期望超体积改进(EHVI)等标准进行获取驱动采样。

PoI在计算上不昂贵且在高维空间中稳健,但它对所有非支配改进一视同仁,可能导致保守行为和在当前前沿附近的过度开发。EHVI通过根据候选物期望贡献的超体积来加权候选物,提供更有信息量的选择标准,但其计算成本随目标数量和帕累托前沿规模快速增长。闭式、可处理的EHVI表达式依赖于高斯预测分布和独立性假设,而集成代理不满足这些条件。因此,作者在实验中使用PoI作为获取分数,同时指出对于低维搜索,EHVI应该被优先选择。

自适应置信度:动态调整探索与开发

探索-开发权衡在流水线的两个阶段出现:候选采样(提出分子结构)和候选选择(对结构排名并选择评估)。探索对应于采样化学空间中不确定的区域以提高模型准确性,而开发偏好被预测能推进当前帕累托前沿的候选物。

在采样阶段,通过从三个不同的池中抽取候选物来鼓励探索:非帕累托分子的基础池和具有新颖功能化的帕累托分子。采样概率由两个参数η和γ控制,这些概率被安排为随代数递减,使早期迭代偏向探索,后期迭代偏向开发。

在候选选择阶段,置信度参数向量α(t)通过调制贝叶斯自举采样权重的稀疏性间接控制权衡。较大的α值对应于对模型预测的更高信任,因此有利于开发;较小的α值增加权重变异性,强调预测不确定性,促进探索。由于搜索过程中遇到的数据分布是非平稳的且偏向化学空间的尾部区域,作者提出了一种算法来自适应地调整α(t),在整个搜索过程中保持校准的不确定性估计。

不确定性校准使用对数归一化平方误差量化:φ = log(ε²/σ²),其中ε是预测误差均值,σ是集成标准差。良好校准的代理对应于φ约等于0。在每一代中,置信向量基于最近迭代中校准对置信度变化的历史敏感性进行更新,反馈更新驱动φ趋向零,使候选选择保持平衡的探索-开发状态。

为确保数值稳定性和统计上有意义的不确定性估计,作者进一步通过贝叶斯自举诱导的有效样本量(ESS)约束置信参数。对对称狄利克雷分布,期望ESS的代理有闭式表达。施加最小期望有效样本量Q产生解析下界,用于裁剪α(t+1)的每个分量,该约束防止自举分布集中在太少的训练点上,并随着训练集增长自动适应。

QM9基准数据集上的离线评估

QM9是一个基准数据集,包含约134000个小有机分子,由碳、氮、氧、氟和氢原子组成,每个分子最多含九个重原子。对每个分子在DFT理论水平上提供量子化学性质。作者使用其中四个性质作为搜索目标:原子化能、零点能、电子带隙和热容。

QM9为基准测试优化策略提供了出色的测试平台,因为化学空间相对较小且均匀。候选评估简化为查表操作,允许执行多次独立优化运行并量化向四维目标空间极值的经验收敛。数据集与建模假设匹配良好:线性图基序指纹代理对小有机分子有效,目标性质的相关性为所提出的元学习框架提供了合适的设置。

实验从M=40个分子初始化,每次迭代提出P=1000个候选,保留S=10个进行查表,使用B=100个自举样本,运行100代。模型引导的帕累托前沿始终支配随机策略,C指标值在整个搜索过程中保持在80%以上。这可以通过QM9空间的适度大小和其分子的同质性来解释,这些因素使代理模型在仅少量评估后就能变得有效。

比较两条模型引导流水线,元引导策略在搜索早期阶段(第1至5代)以及中后期迭代(约第20至80代)中优于基础(非元)流水线,在基础帕累托前沿上产生20-30%的被支配点。两条模型引导流水线在运行结束时收敛到相似的前沿。

在单维极值收敛方面,元引导搜索以比随机采样大约两个数量级少的迭代次数收敛到目标极值。对四个目标性质中的三个,元引导和基础算法也达到了更好的一维极值,通常将最佳观测值改善1到1.5个单位。

交叉自旋金属有机配合物的大规模实时搜索

为在现实且计算要求严苛的环境中评估方法,作者执行了针对交叉自旋(SCO)有机金属配合物的在线搜索。交叉自旋是指过渡金属配合物在高自旋和低自旋电子态之间的可逆转变,通常由温度诱导。研究聚焦于具有铁中心的八面体配合物,旨在识别同时具有有利交叉自旋能量学和良好溶剂化性质的候选物。

配体池由剑桥结构数据库(CSD)中提取的有机配体构建。应用化学动机过滤来定义可行的配体空间:排除夹心型和边桥型配体,仅保留特定齿合度的配体以及产生总配合物电荷大于-3的配体。为丰富搜索空间,考虑了28种预定义功能化策略,可系统地应用于基础配体。候选金属-配体配合物在三维空间中构建,使用Architector评估——一个用于建模单核配位配合物的高通量包。从最小的二维分子图输入开始,它生成三维构象并使用XTB估算高自旋和低自旋态的电子能量。交叉自旋能量定义为两种自旋态能量之差。

在最大规模的SCO搜索中,从基础池中随机采样M=500个配体并评估四个目标性质开始。每次迭代拟合B=100个基础模型的贝叶斯自举集成,连同每个辅助任务的一个额外未加权模型,共产生409个岭回归,可完全并行执行。流水线提出P=60000个新分子,使用集成代理产生PoI排名,选择的S=2000个随后聚类为K=399个代表性分子进行评估。

最终帕累托集包含约400个配合物,小于基础和随机流水线产生的对应前沿(分别约500和1100个配合物)。元学习流水线迅速达到C指标值0.7-0.85(对基础流水线),并在大多数代中保持这一优势。反向比较始终远低于此:基础流水线很少超过C约0.25,随机选择则接近零。元学习工作流支配了78%的基础帕累托前沿,仅在18%的情况下表现不佳。

自适应置信度的实际效果

动态置信度调优算法产生了经验上更好的帕累托前沿。到最后一代,静态置信度下约52%的帕累托点被动态策略的至少一个点支配,而仅21%的动态置信度前沿被静态置信度前沿支配。这一差距随搜索进行而扩大,表明动态更新在少量迭代内从次优初始化中恢复,并在搜索结束时产生更好的帕累托前沿质量。

作者通过二维PCA投影展示拟合分布和推断分布之间的差距。除了采样化学空间的持续扩展外,许多推断分布表现出尾部行为或训练数据中不存在的双峰性,使准确预测和平衡校准充满挑战。动态置信度更新在探索和开发制度之间振荡的方式是固定值无法实现的。校准指标本身不能清晰区分两种策略,因为两种算法隐式地通过在迭代中不同方向引导探索-开发权衡来评估不同难度的分子。

消融研究揭示元学习的正则化机制

为更好理解元学习带来的性能提升机制,作者进行了跟踪训练期间学习系数及其几何形状的消融研究。元学习的第一个明显效果体现在学习系数的基尼系数和逆辛普森指数上。基础模型具有高度不平等的系数幅度(平均基尼系数约0.97),表明其预测被少数分子子图主导。元模型将此值降低到约0.67,反映了权重在子结构特征上更广泛的分布。

逆辛普森指数衡量有效贡献子图数,元学习模型依赖的有效子图数大约比基础模型多一个数量级。此外,元模型中有效活跃子图数随数据集多样性增长,而基础模型则局限于相对较小的预测子集。这些结果表明元学习充当了有效的化学感知正则化器:它不是将权重集中在少数预测器上,而是在更广泛的化学有意义子结构集合上分配重要性,从而缓解低数据状态下的过拟合。

将元学习参数向量分解为与基础解平行和正交的分量,提供了关于这种收敛的互补视角。正交与平行范数之比在训练期间快速减小,表明随着模型获取更多任务特定数据,正交分量变得可以忽略。

计算效率与模块化优势

整个流水线高度模块化和可并行化。除了聚类、基于代理的候选排名和帕累托前沿更新外,主导步骤都是令人尴尬地可并行的:集成拟合、候选生成、代理预测、PoI评估和高保真性质计算都可以达到高度并行化。

元学习拟合策略相比单次回归仅贵2-3倍,与非线性深度学习模型相比仍然可以忽略。最坏情况下,元算法的性能非常类似于拟合其基础线性模型,因为它可能只是将所有权重分配给对应的基础线性模型。显著的预测性能提升以极小的计算开销为代价。

局限性与未来方向

流水线的一个潜在局限是:对大型搜索活动,它会产生大的帕累托集。这是在高维中进行搜索活动的直接后果,是所谓的维度灾难的实例,是一个没有无假设工程解决方案的广为人知的现象。但这种行为也可以被视为人机交互发现的设计选择:流水线保留了一组多样化的非支配权衡,将最终选择留给化学判断。

三个自然延伸方向浮出水面。第一,流水线目前对每个选定候选评估所有目标,不论其相对计算成本如何。将每个目标的获取决策解耦——使昂贵的性质仅在代理不确定性证明其合理时才被评估——将大幅减少目标间成本差异达数量级的设置中的实际时间。第二,将流水线应用于额外领域将测试方法的通用性。第三,扩展辅助任务集,例如评估广泛可用包如RDKit的廉价性质,或考虑计算化学的其他副产品。

总结

这项工作首次将元学习方法与多目标优化相结合来执行分子搜索。线性元学习充当化学感知正则化器的机制尤其引人注目:它不是选择稀疏的预测特征子空间,而是通过拓宽预测期间活跃使用的特征集合来正则化。这种在化学有意义特征上的权重重新分配似乎减少了对少数高幅度系数的依赖,改善了低数据状态下的泛化能力。在交叉自旋配合物搜索中,这种优势尤为显著且持久——在计算预算内没有收敛迹象。元引导策略支配了78%的基础帕累托前沿,而动态置信度调优进一步支配了超过50%的静态校准前沿。从QM9离线基准到大规模实时化学搜索,这套可解释、数据高效、模块化的流水线展示了将先进机器学习方法与领域知识相结合的强大力量。

论文信息:Antonio Varagnolo, Yulia Pimonova, Michael G. Taylor, Raphaël Pestourie, Nicholas Lubbers, "Interpretable Meta-Learning for Multi-Objective Chemical Search", :2606.20497v1, 2026年6月18日。来自洛斯阿拉莫斯国家实验室和佐治亚理工学院。

评论