引言:大环肽——药物开发中"够不着"的宝藏
在现代药物化学的版图上,大环肽(macrocyclic peptides)占据着一个独特而尴尬的位置。它们比小分子大,比抗体小,恰好卡在那个"中间尺寸"——理论上能触及传统小分子难以攻克的细胞内靶点,又比庞大的单克隆抗体更灵活。然而,这种理论上的优势长期停留在纸面上,因为设计一个真正具备细胞穿透能力、又能精准结合目标蛋白的大环肽,其难度堪比在三维空间中同时解四道相互耦合的方程。
问题的核心在于,大环肽的设计不是一个单目标优化问题,而是多重约束下的联合搜索。你需要同时控制非天然单体的化学组成、环拓扑结构(谁连着谁、以什么方式连接)、膜渗透性(能不能穿过细胞膜进入细胞内部),以及与目标蛋白的结合亲和力(能不能卡在靶点上不走)。这四个维度的任何一个单独拿出来都是一道难题,放在一起则构成了一片巨大的组合空间,传统实验筛选方法面对这片空间几乎无能为力。
让我们先回顾一下大环肽在药物开发中的历史地位。环孢素A(Cyclosporine A)是最早被批准上市的大环肽药物之一,它通过抑制钙调磷酸酶发挥免疫抑制作用,至今仍是器官移植领域的基石药物。达托霉素(Daptomycin)则代表了另一种大环肽的潜力——作为脂肽类抗生素,它通过破坏细菌细胞膜的完整性来杀灭耐药菌。埃坡霉素(Epothilone)系列化合物更是展示了大环肽在抗肿瘤领域的前景。这些成功的案例无一例外地证明了一个事实:大环肽的环状结构赋予了它们独特的三维构象约束,使得它们能够在保持较高膜渗透性的同时,维持对靶点的高亲和力结合。
但这些成功案例的背后,是数十年的密集实验筛选和无数次的失败。环孢素A最初是从真菌代谢产物中发现的,达托霉素来源于土壤细菌——这些天然产物的发现带有很大的偶然性。要从头设计一个全新的大环肽,情况就完全不同了。
为什么传统计算方法在此折戟
计算方法曾经给出过一些希望,但每种方法都有各自的致命缺陷。SMILES(Simplified Molecular Input Line Entry System)字符串生成模型是第一类被尝试的方法。SMILES用一串ASCII字符来表示分子结构,比如环己烷可以表示为"C1CCCCC1",其中数字1表示环闭合。对于小分子来说,SMILES是一种简洁有效的表示方式。但当对象变成大环肽时,问题就来了——一个含有10个非天然氨基酸的大环肽,其SMILES字符串可能长达数百个字符。在这种长度下,自回归模型的注意力机制面临的压力是巨大的:序列越长,长距离依赖越容易被遗忘,全局约束(比如环闭合要求首尾匹配)越难被有效传递。
HELM(Hierarchical Editing Language for Macromolecules)字符串生成模型是第二类主流方法。HELM是Pfizer公司开发的一种宏分子表示标准,它将聚合物(包括多肽)表示为单体单元的序列,比如"PEPTIDE1{[dNle]}|PEPTIDE1{[Hyp]}$PEPTIDE1,PEPTIDE1,1:R1-1:R2$$$"。与SMILES相比,HELM的优势在于序列长度大幅缩短——每个残基只用一个符号来表示,而不是一长串原子。但问题在于,这些符号缺乏化学语义。模型看到的是"单体A、单体B、单体C",至于A是什么氨基酸、侧链有多长、有没有杂环、疏水性如何,模型一概不知。这就像用颜色编码来描述音乐——红色代表高音、蓝色代表低音,表面简洁,实质上丢失了大量关键信息。一个拥有苯丙氨酸侧链的非天然单体和一个拥有环己基侧链的非天然单体,在HELM编码中可能只是两个不同的符号ID,但它们在π-π堆积能力、构象柔性和膜渗透性方面的差异是巨大的。
更根本的问题是,无论是SMILES还是HELM方法,它们都把分子生成当作一个离散序列预测问题来处理。但分子不是语言——语言中"猫"和"狗"是两个独立的符号,它们之间的语义距离不由字符本身决定;而在化学中,两个单体之间的"距离"有明确的物理含义(结构相似性、反应活性差异、构象偏好差异等)。用处理自然语言的方法来处理分子,本质上是在错误的空间里做搜索。
2026年6月12日,来自Zhang、Yi、Ju和Gu四位研究者的团队在arXiv上发表了编号2606.14510的论文《PepALD: Macrocyclic Peptide Generation via Autoregressive Latent Diffusion》,这是一种全新的大环肽从头生成框架,试图从根本上打破上述困局。论文的分类标签为cs.LG(机器学习)和q-bio.BM(生物分子),准确地反映了这项工作的跨学科性质。
方法论解剖:PepALD的四层架构
PepALD的核心设计哲学可以用一句话概括:不要在符号空间里做生成,要在化学空间里做生成。这个哲学落实到技术层面,分成了四个相互咬合的模块。每一个模块的设计都不是孤立的,它们之间存在着精心安排的信息流动和梯度传播路径。
第一层:HELM单体的结构化化学嵌入
传统HELM方法的问题在于,每个单体只是一个离散符号,缺乏化学语义。PepALD的做法是给每个HELM单体构建一个结构化化学嵌入(structured chemical embedding)。
具体来说,这个嵌入不是简单地从一个查找表里取出一个向量(那是传统词嵌入的做法),而是编码了单体的多种化学属性。这些属性包括但不限于:主链骨架的几何特征(键角、二面角的偏好分布)、侧链(R基团)的拓扑结构和电子性质(Hammett常数、Taft立体参数的近似)、可旋转键数量(直接关联构象熵)、氢键供体和受体的分布模式(决定溶解度和蛋白结合特征)、疏水性参数(cLogP或类似度量)、以及分子量和极性表面积等全局描述符。
这意味着,当模型处理序列中的第N个残基时,它不仅知道"N是什么",还知道"N的化学性格是什么"、"N和前面的残基在化学上可能产生什么相互作用"。举个具体例子:假设序列的前三个残基都是疏水性较强的单体,那么第四个残基如果也是疏水性的,整个分子的膜渗透性可能很好但溶解度堪忧;如果第四个残基是亲水性的,情况则可能相反。这种跨位置的化学互补关系,通过结构化嵌入被隐式地编码在了表征空间中。
这种嵌入策略的深层意义在于,它把化学先验知识注入了模型的表征空间。模型不需要从零学习"含有芳香环的单体倾向于形成π-π堆积"这类基本化学规律——这些规律已经通过嵌入的结构编码隐式地传达了。这类似于在计算机视觉中使用预训练的ImageNet特征——不是让模型从像素开始学习什么是边缘、什么是纹理,而是直接给它一个理解视觉世界的起点。
一个值得讨论的技术细节是,如何将异构的化学属性(连续值、离散值、图结构)统一编码为一个固定维度的向量。论文中的做法是为每类属性设计专门的编码器(连续值用MLP,离散值用嵌入表,图结构用图神经网络),然后将所有编码拼接或融合为一个统一的化学嵌入向量。这种分而治之的策略确保了每类信息都被充分表达,同时避免了不同类型属性之间的干扰。
第二层:化学知情潜空间中的上下文条件扩散
有了好的单体表征,下一步是在什么空间里做生成。PepALD没有选择直接在序列空间中生成下一个残基,而是采用了一个潜空间扩散过程。这个选择背后的逻辑是深刻的。
直接在序列空间生成的问题在于,序列空间是离散的。离散空间中的"移动"是跳跃式的——从单体A到单体B没有连续的中间路径,你不能"稍微偏向A一点点、再偏向B一点点"。这种离散性使得基于梯度的优化方法(包括扩散模型中的去噪过程)难以直接应用。过去人们用Gumbel-Softmax等技巧来"软化"离散空间,但这些技巧本质上是一种近似,会引入偏差。
PepALD的解决方案是定义一个连续的潜空间,这个空间的每一个点都对应一个有意义的化学表征。具体流程是这样的:对于序列中每个即将生成的位置,模型首先将当前的上下文信息(已生成的残基序列)通过注意力机制编码为一个上下文向量。然后,在一个经过化学结构信息训练的潜空间中,通过扩散模型生成该位置的残基表征。生成的潜空间向量随后被解码为具体的单体选择。
这里的"化学知情"(chemically informed)是关键修饰语。潜空间不是随便学到的,而是专门设计来满足以下条件:(1)空间中的邻近点对应化学上相似的单体;(2)空间的维度与有意义的化学变异方向对齐;(3)空间的拓扑结构保留了化学结构的核心不变性(如手性、对称性)。这种潜空间的构建通常需要在标准的变分自编码器(VAE)目标函数之外,加入额外的结构正则化项。
为什么用扩散模型而不是直接回归?因为残基的选择本质上是一个多模态分布——给定相同的上下文,可能有多种化学上合理的候选单体。比如,如果前三个残基形成了一个β-转角的前体结构,那么第四个残基可能需要一个特定类型的单体来完成转角,但这个"特定类型"可能包含多种不同的化学实体。扩散模型天生擅长建模这种多峰分布,因为它通过逐步去噪的过程来逼近目标分布,而不是直接预测一个点估计。相比之下,直接回归会把所有可能性"平均"成一个不存在的中间态——一个在化学上可能毫无意义的"平均分子"。
上下文条件的实现方式也值得注意。模型不是简单地把前面的残基嵌入拼接起来(那会丢失位置信息),而是通过一个双向注意力机制计算上下文表征,让每个位置的残基都能"看到"序列中其他位置的信息。对于环肽来说,这一点尤为重要,因为环闭合意味着序列的首尾相连,远处的残基之间的相互作用可能比相邻残基更强烈。一个在序列中部的疏水残基和一个靠近C端的疏水残基,在三维空间中可能由于环的折叠而成为近邻——注意力机制能够捕捉到这种非局部的相互作用。
扩散过程的具体参数化也值得一提。PepALD采用了去噪扩散概率模型(DDPM)的框架,在潜空间中定义了前向的加噪过程和反向的去噪过程。前向过程逐步向潜空间表征添加高斯噪声,直到其退化为纯噪声。反向过程则从纯噪声出发,通过一个参数化的去噪网络逐步恢复有意义的表征。去噪网络的输入包括当前的噪声表征、扩散时间步、以及上下文向量。这种条件化的去噪确保了生成的表征与给定的序列上下文一致。
第三层:R基团感知的环闭合预测
大环肽之所以"大"、之所以"环",是因为序列首尾之间(或非相邻残基之间)通过化学键连接形成环状结构。这个环闭合点的选择和闭合化学的确定是大环肽设计的核心难点之一。
传统方法往往把环闭合作为一个后处理步骤——先生成线性序列,再决定怎么闭合成环。这种"先生成后检查"的模式有一个根本性的缺陷:它无法保证生成的线性序列一定能够被合理地闭合。想象一下,模型生成了一个线性序列,两端分别是赖氨酸侧链(氨基)和天冬氨酸侧链(羧基)——理论上可以通过酰胺键闭合,但如果两端的空间取向不对,闭合反应的活化能可能高到在实际化学中不可行。这种情况下,整个生成结果就浪费了。
PepALD的做法不同,它在自回归生成过程中就同时预测环闭合信息。具体而言,当模型在自回归地逐个生成残基时,它同时维护一个环闭合预测模块。这个模块利用当前已有的序列信息和R基团特征,动态评估三个关键问题:(1)哪个位置之间的闭合在化学上最可行?(2)闭合应该使用什么化学反应(例如,二硫键通过两个半胱氨酸的巯基氧化形成,酰胺键通过氨基和羧基的缩合形成,乳酸键通过羟基酸的酯化形成,或者通过click化学中的叠氮-炔基环加成反应形成)?(3)闭合点两侧的R基团是否具备反应所需的官能团?
这种"边生成边闭合"的策略带来了两个显著优势。
第一,它避免了后处理中的不兼容问题。线性序列生成完了才发现两端没有合适的官能团来闭合,这种尴尬在PepALD中不会出现,因为模型在生成早期就已经开始考虑闭合需求。如果模型在第3个位置(共10个位置)时"预感"到最终闭合可能发生在第1位和第10位之间,那么它可以在第4到第9位的生成中主动调整策略,确保第10位的残基携带与第1位互补的官能团。
第二,它允许闭合决策对序列生成产生反馈影响。这种双向信息流是PepALD架构的一个重要特点——闭合预测模块不仅读取序列信息,还向序列生成模块回传信号。如果闭合模块"决定"了某种闭合方案,后续的残基生成可以据此调整。这类似于建筑设计中"先确定屋顶结构,再调整承重墙布局"的理念——全局约束会影响局部决策。
R基团感知是这个模块的另一大特色。非天然氨基酸的R基团千变万化,从简单的甲基到复杂的杂芳环,从线性的烷基链到刚性的双环结构。它们不仅影响单体的化学性质,也直接影响环闭合的可行性和几何约束。一个带有长柔性侧链的R基团可能提供更多的构象自由度,使得闭合更容易实现,但同时也可能降低环肽的刚性,影响与靶点的结合。一个带有刚性芳香侧链的R基团可能在几何上限制闭合的可能方案,但一旦成功闭合,形成的环肽可能具有更好的构象稳定性和靶点亲和力。PepALD将R基团的详细结构信息纳入环闭合预测,使得闭合方案的选择不再是粗粒度的"能连就行",而是精细到"在R基团的哪个原子上、以什么角度、形成什么键"。
第四层:胜者保护的扩散偏好优化
前三层解决了"怎么生成化学上合理的大环肽"的问题,但药物设计的目标不仅是合理,更是有效。模型生成了一堆候选大环肽,怎么从中选出对目标蛋白结合最好的那些?传统的做法是用打分函数(scoring function)对候选者排序,然后取top-K。PepALD更进一步,它通过一种叫做"胜者保护扩散偏好优化"(winner-protected diffusion-adapted preference optimization)的方法,把亲和力奖励信号直接对齐到去噪过程中,让模型从源头就学会生成高质量的候选物,而不是先生成一堆再挑选。
这个方法的名字很长,但核心思想分解开来并不复杂。让我们逐层拆解。
首先是"偏好优化"(preference optimization)。这个概念来源于大语言模型对齐领域的DPO(Direct Preference Optimization),其核心思想是:给定一对样本(一个"好"的,一个"差"的),调整模型参数使得模型更倾向于生成"好"的那个。在PepALD的语境下,"好"和"差"由分子对接(docking)等计算评估方法给出的亲和力奖励来定义——亲和力预测值高的分子是"好的",亲和力预测值低的是"差的"。
然后是"扩散适配"(diffusion-adapted)。标准的偏好优化是在最终输出上做的——比较两个完整的输出,调整模型。但扩散模型的生成过程是多步的,每一步都在逐步精化表征。如果只在最终输出上做优化,模型可能学到的是"在最后一步做修正"的捷径,而不是"在整个生成过程中保持正确方向"的全局最优策略。PepALD通过在多个去噪步骤上施加偏好信号,确保了优化的深度和稳定性。具体来说,它比较的不是两个最终生成结果,而是两个去噪轨迹——从相同的噪声起点出发,走向不同方向的两条路径。模型被训练来偏好那条通向高亲和力分子的轨迹。
最后是"胜者保护"(winner-protected)。这是一个至关重要的技术细节。在标准的偏好优化中,模型可能会为了增加"好结果"的概率而过度压缩分布,导致生成多样性丧失——模型变得只会生成少数几种"它认为最好"的分子,失去了探索化学空间其他区域的能力。胜者保护机制通过在损失函数中加入一个保护项,确保优化过程不会破坏已经表现良好的生成模式。具体来说,对于那些在优化前就已经能获得高亲和力评分的生成轨迹,保护项会限制它们被修改的幅度。这类似于进化中的"精英保留"策略——改良种群的同时不要把最好的个体改丢了。
这种对齐策略的另一个优势是,它使得奖励信号能够影响生成过程的"习惯",而不仅仅是"结果"。经过偏好优化的模型,在面对新的噪声输入时,会自发地倾向于走向化学空间中高亲和力的区域,而不需要额外的引导或重采样。这类似于一个经验丰富的化学家在做分子设计时的直觉——不需要穷举所有可能性,凭经验就能知道哪些方向值得探索。
实验验证:PepALD交出了什么答卷
理论说得再漂亮,终究要靠实验说话。PepALD的实验评估从多个维度展开,覆盖了生成质量和奖励优化两大核心指标。研究团队将PepALD与多个代表性基线方法进行了对比,这些基线涵盖了当前大环肽生成领域的主流方法。
生成质量评估
在生成质量方面,PepALD需要证明它生成的大环肽在化学上是合理的、多样的、并且与已知药物分子分布匹配。评估使用的标准指标包括:
化学有效性(Validity):生成的分子中有多少在化学上是可行的——键长合理、价态饱和、没有违反基本化学规则。这是最低门槛,但SMILES方法在这个指标上往往会损失一部分样本,因为字符级别的生成容易产生语法错误。
唯一性(Uniqueness):在所有生成的分子中,有多少是独一无二的。如果模型生成了1000个分子但其中800个都是同一个,那它的实际多样性只有200。唯一性低的模型在虚拟筛选中的价值有限,因为筛选的核心就是找到多种不同的候选物。
新颖性(Novelty):生成的分子中有多少是训练集中未见过的。一个只能"复述"训练数据的模型没有实用价值——我们需要的是新分子,不是已知分子的副本。
多样性(Diversity):生成的分子集合在化学空间中的覆盖范围。即使所有分子都是有效的、唯一的、新颖的,如果它们都挤在化学空间的一个小角落里,筛选的效率也会大打折扣。
PepALD在以上所有指标上都展现了显著优势。特别是在多样性和新颖性方面,潜空间扩散的建模能力使得PepALD能够探索更广阔的化学空间,而不会退化为生成少数"安全"的已知分子变体。
奖励优化评估
在奖励优化方面,PepALD的表现尤为突出。通过将分子对接给出的亲和力奖励信号整合到去噪过程中,PepALD生成的候选肽在预测亲和力分布上明显优于基线方法。具体来说,PepALD生成的分子集合的平均预测亲和力更高,且高亲利力分子的比例更大。
更重要的是,胜者保护机制确保了这种优化不会以牺牲多样性为代价——PepALD生成的高亲和力候选者不是千篇一律的变体,而是覆盖了化学空间的不同区域。这一点在药物发现中极为重要,因为高亲和力但结构过于相似的一组分子,在后续的实验验证阶段可能表现出相似的问题(比如相同的毒性或代谢弱点),而结构多样化的高亲和力候选者集合则提供了更多的"备选方案"。
与基线方法的对比
PepALD的对比基线包括了基于SMILES的自回归生成模型、基于HELM的符号生成模型、以及标准的潜空间方法(不带化学知情嵌入和环闭合预测)。对比结果表明,PepALD的优势不是在某个单一指标上的小幅领先,而是在多个维度上的系统性提升。特别是在需要同时优化多个约束条件的场景下(比如既要高亲和力又要良好的预测膜渗透性),PepALD的优势更加明显,因为它的四层架构天然支持多约束的联合优化。
技术意义:超越PepALD本身
PepALD的意义不仅限于大环肽生成本身,它在方法论层面提出了几个值得关注的范式转变,这些转变可能对更广泛的分子生成领域产生影响。
第一,它证明了"化学知情的潜空间"在分子生成中的价值。过去,很多分子生成模型在潜空间的构造上比较随意——用标准的自编码器学到什么就是什么,不施加任何化学约束。PepALD的做法是明确地将化学结构约束编码进潜空间,使潜空间的几何结构与化学性质对应。这个思路可以推广到蛋白质设计(编码二级结构偏好、溶剂可及性等)、核酸设计(编码碱基配对规则、堆叠能量等)、甚至材料科学中的其他分子类型(编码晶体对称性、带隙等)。
第二,它展示了自回归生成和扩散模型的协同潜力。这两种生成范式各有优劣:自回归模型擅长处理序列依赖关系,但容易受到误差累积的影响;扩散模型擅长建模复杂分布,但在处理离散序列时不够自然。PepALD用自回归框架处理残基的顺序生成(利用序列依赖),用扩散模型处理每个位置上的化学多样性(利用分布建模能力),两者的结合比任何一方单独使用都更强大。这种混合架构的思路可能启发其他领域的生成模型设计。
第三,"边生成边闭合"的策略为需要满足全局约束的生成任务提供了新思路。在许多生成任务中,输出需要满足某种全局一致性约束——不只是"局部看起来对",还要"整体上说得通"。环闭合是大环肽设计中的全局约束,而在蛋白质设计中,全局约束可能是整体拓扑的正确折叠;在材料设计中,全局约束可能是晶格参数的自洽性。PepALD的内嵌约束预测方式——在生成过程中实时评估全局约束的满足情况并反馈到后续生成中——为这类问题提供了一种通用的解决范式。
第四,将偏好优化从语言模型迁移到扩散模型的分子生成框架中,是一个有价值的方法论贡献。DPO等偏好优化方法在大语言模型中已经证明了其有效性,但如何将其适配到连续空间的扩散模型中并非简单移植就能解决的问题。PepALD提出的"扩散适配"和"胜者保护"机制,为偏好优化在扩散模型中的应用提供了具体的技术方案。
局限性与未来方向
任何方法都有边界,PepALD也不例外。正视这些局限性不仅有助于客观评价这项工作,也为后续研究指明了方向。
首先,PepALD的评估主要依赖计算方法(如分子对接),而非实验验证。分子对接给出的亲和力预测虽然有参考价值,但与真实的生物活性之间存在不小的鸿沟。分子对接的打分函数往往对某些类型的分子系统性偏高或偏低,且无法充分考虑溶剂效应、熵贡献和蛋白柔性等复杂因素。PepALD生成的候选肽在实际生物实验中的表现,需要后续的工作来验证。这是一个在AI驱动药物发现领域普遍存在的问题——计算评估和实验验证之间的gap是所有计算方法都需要跨越的鸿沟。
其次,PepALD处理的约束维度虽然比现有方法多,但距离真正全面的大环肽设计仍有差距。当前框架关注的是化学合理性和靶点亲和力,但药物开发中还有许多其他重要因素尚未被纳入生成过程的约束条件。药代动力学性质(ADMET——吸收、分布、代谢、排泄、毒性)、合成可及性(实验室或工厂里能不能高效合成出来)、体内稳定性(在血液中会不会被蛋白酶快速降解)、免疫原性(会不会引起不需要的免疫反应)——这些因素中的任何一个都可能导致一个在计算上看起来完美的候选物在实际开发中失败。将这些因素整合进来,可能需要更大规模的多目标优化框架,以及更加多样化的评估手段。
第三,模型的计算成本不可忽视。潜空间扩散、自回归生成、环闭合预测、偏好优化——这四层架构的每一层都需要计算资源,叠加起来的训练和推理开销可能限制PepALD在大规模筛选场景中的应用。在实际药物发现项目中,往往需要生成和评估数百万甚至数十亿个候选分子,计算效率直接影响方法的实用性。如何在保持生成质量的同时降低计算成本,是一个值得探索的方向。可能的路径包括:知识蒸馏(用训练好的大模型指导小模型)、缓存机制(对重复出现的上下文模式缓存计算结果)、以及采样加速技术(如DDIM等少步采样方法)。
第四,非天然单体库的覆盖范围直接影响PepALD的化学空间探索能力。目前的单体库虽然丰富,但与理论上的非天然氨基酸空间相比仍然有限。自然界中存在的20种标准氨基酸只是所有可能氨基酸的极小一部分,而商业可获得的非天然氨基酸虽然数量上千,也只是冰山一角。如何将PepALD与单体设计方法结合,实现单体和序列的联合优化——不仅选择已有的单体,还设计全新的单体——是另一个有前景的研究方向。
第五,当前的评估体系可能不够全面。化学有效性、唯一性、新颖性等指标虽然是标准评估维度,但它们可能无法完全反映一个分子生成方法在实际药物发现中的价值。更贴近实际的评估可能需要包括:在固定计算预算下发现活性分子的效率、生成分子的合成路线可规划性、以及在多靶点筛选中的表现等。
行业影响:从论文到产业的距离
大环肽药物开发是一个高风险、高回报的领域。目前全球范围内,仅有少数大环肽药物获批上市(如环孢素A、达托霉素等),但进入临床试验阶段的大环肽候选物数量正在快速增长。多个制药公司和生物技术公司已经将大环肽列为重点开发方向,包括Bicycle Therapeutics(开发双环肽偶联药物)、PeptiDream(利用大环肽展示技术平台)、以及Molecular Partners(开发DARPin类亲和体蛋白)。
PepALD这类计算工具的价值在于,它可以大幅缩短候选物发现阶段的时间和成本——把原本需要数年的大规模筛选压缩到数周甚至数天的计算生成加虚拟筛选。在药物开发的时间线上,候选物发现阶段虽然不是最昂贵的(临床试验才是),但它决定了后续所有投入的起点质量。一个从更好的起点出发的项目,成功的概率自然更高。
当然,从计算生成到临床候选物之间还有很长的路要走。PepALD生成的候选肽需要经过湿实验验证(化学合成、纯化、结构表征)、体外活性测试(结合实验、酶抑制实验等)、细胞毒性评估(MTT/CCK-8等细胞活性实验)、药代动力学初步评估(微粒体稳定性、血浆蛋白结合率等)、动物模型验证(PK/PD研究、疗效研究)等一系列步骤。每一步都可能淘汰大量候选物。但至少在起点这一步,PepALD提供了一个比随机筛选或经验导向设计更高效的出发点。
对于国内的AI制药企业来说,PepALD的方法论也值得借鉴。当前国内AI制药赛道竞争激烈,但大多数企业集中在小分子(如晶泰科技、望石智慧)和抗体(如百图生科、深势科技)领域,大环肽方向的计算方法相对稀缺。PepALD的技术路线——化学知情嵌入、潜空间扩散、约束内嵌生成、偏好优化对齐——构成了一个完整的技术栈,其中的每个模块都可以单独移植或改进。比如,化学知情嵌入的思路可以直接应用于改进现有的多肽设计工具;环闭合预测的方法可以扩展到其他需要满足拓扑约束的分子类型;偏好优化的框架可以与各种打分函数结合使用。
另一个值得关注的产业趋势是,大环肽与抗体偶联药物(ADC)的结合正在成为新的热点。如果PepALD能够生成具有高细胞穿透性的大环肽,那么将这些肽与细胞毒性载荷偶联,可能产生一类全新的靶向治疗药物。这需要PepALD不仅能优化靶点亲和力,还需要考虑偶联化学的兼容性——这恰好是R基团感知的环闭合预测模块可以发挥作用的地方。
技术细节补充:训练策略与数据考量
论文中未在摘要层面详细讨论但值得关注的技术细节包括训练数据的选择和训练策略的设计。大环肽的实验数据在公开数据库中相对稀缺——与小分子(ChEMBL、PubChem中数百万条记录)和蛋白质(UniProt中数亿条序列)相比,已知的大环肽结构-活性关系数据可能只有数千到数万条。这种数据稀缺性对深度学习方法的训练构成了严峻挑战。
PepALD作为"基础模型"(foundation model),其训练策略可能包含以下几个要素:(1)预训练阶段使用更大规模的线性肽或小分子数据来学习基本的化学表征和生成能力;(2)微调阶段使用专门的大环肽数据来适配环状结构的特殊约束;(3)数据增强策略,比如通过计算方法生成合成训练样本(对已知分子进行分子动力学采样、构象生成等)。这种分阶段的训练策略是应对数据稀缺的常见手段,但具体效果取决于预训练数据和目标任务之间的迁移性。
另一个值得关注的方面是分子对接作为奖励信号的可靠性。分子对接打分函数经过数十年的发展,已经相当成熟,但它们仍然只是真实结合自由能的粗糙近似。在PepALD的偏好优化框架中,对接打分的噪声和偏差会直接影响优化的方向——如果打分函数系统性地高估某类分子的亲和力,模型就会倾向于生成这类"打分函数偏爱"而非"真正有活性"的分子。这个问题在强化学习领域被称为"奖励黑客"(reward hacking),是所有基于奖励信号的优化方法都需要警惕的风险。
结语
PepALD在大环肽生成这个充满挑战的交叉领域,交出了一份技术含量扎实的工作。它不是简单的"把大语言模型的套路搬过来",而是在分子表征、生成架构、约束处理和优化策略四个层面都做了针对性的设计。
化学知情的嵌入让模型真正"理解"单体的化学本质,而不是把它们当作无意义的符号。潜空间扩散保留了生成的多样性,避免了直接回归带来的模式坍塌。R基团感知的环闭合预测解决了全局约束的内嵌处理问题,让"能环合"成为生成过程的内在属性而非外在筛选条件。胜者保护偏好优化平衡了质量提升和多样性保持,使得奖励信号能够有效引导生成方向而不至于破坏探索能力。
这些设计选择共同构成了一套有说服力的技术方案,为大环肽的计算驱动药物设计开辟了新的路径。尽管从论文到产业之间还有实验验证、工艺开发、临床试验等漫长的路要走,但PepALD至少为这条路的起点提供了一个更高的平台。在AI制药进入深水区的当下,这种针对具体分子类型、深入化学本质的方法论创新,比通用框架的简单套用更有价值。
论文编号:arXiv:2606.14510 作者:Junming Zhang, Siyu Yi, Wei Ju, Zhonghui Gu 发表日期:2026年6月12日 分类:cs.LG, q-bio.BM
评论