一项横跨多个治疗领域的大规模观察性分析,用26,278个靶标-疾病配对的数据,重新审视遗传学证据对药物研发决策的真实预测能力
第一部分:问题的提出——遗传学验证假说的光环与阴影
在当代药物研发领域,"遗传学验证"已经成为一个几乎不可忽视的概念。其核心逻辑简洁有力:如果一个基因的遗传变异——无论是常见的单核苷酸多态性(SNP),还是罕见的功能丧失突变(loss-of-function variant)——与某种疾病的风险或保护性关联在大规模人群研究中被反复确认,那么以该基因编码的蛋白质为靶标的药物,就更有可能在临床上展现出治疗效果。
这个逻辑链条的吸引力在于它植根于人类生物学本身。理想的验证方式是在人体上进行随机对照试验——给一组人服用抑制某个靶标的药物,给另一组人服用安慰剂,观察疾病结局的差异。但这种方法在伦理和技术上都难以大规模实施,尤其是在药物开发的早期阶段。大自然已经替我们做了类似的"实验"——携带特定基因变异的人群在数十年的时间里经历着蛋白功能的变化,这些变化最终体现为疾病风险的升高或降低。孟德尔随机化的思想也正是建立在这个基础之上:基因变异在受精卵形成时随机分配,天然具有随机对照试验的特征,可以用来推断暴露因素(基因功能变化)与结局(疾病风险)之间的因果关系。
然而,从"基因变异与疾病相关"到"靶向该基因的药物能治疗疾病"之间,存在着多重转化鸿沟,这些鸿沟不容忽视。
第一个鸿沟来自效应的尺度差异。遗传学研究识别的往往是微小的效应——一个常见SNP对疾病风险的贡献通常只有百分之几到百分之几十的相对变化,而药物干预则是在特定时间窗口内施加较大的、可逆的功能变化。一个对疾病风险仅有10%影响的基因变异,其编码蛋白被药物完全抑制后可能产生截然不同的临床效果——可能治疗效果显著,也可能因为代偿机制而无效,甚至可能因为长期功能缺失而产生严重副作用。
第二个鸿沟来自基因的多效性。人类基因组中大多数基因都参与多个生物学过程。改变一个基因的功能可能同时影响心血管系统、免疫系统、代谢通路和神经系统。药物的安全性窗口未必允许这种牵一发动全身的干预。一个在遗传学上与2型糖尿病相关的基因,可能同时也与心血管疾病、癌症风险和生育能力相关。靶向这个基因的药物可能对血糖控制有效,但同时可能带来心血管风险的升高或癌症发生率的增加。
第三个鸿沟来自靶标的可药性。并非所有疾病相关基因都能被现有药物技术有效地靶向。一些基因编码的蛋白质缺乏适合小分子结合的口袋,另一些基因编码的蛋白位于细胞内难以到达的位置,还有一些基因的功能需要被增强而非抑制,而当前大多数药物技术更适合实现功能抑制。
第四个鸿沟来自临床开发的现实约束。即使一个靶标在生物学上完全可行,药物开发的成功率仍然受到化合物的药代动力学性质、临床试验的设计质量、监管审批的标准、市场竞合格局等众多非遗传学因素的影响。一个拥有完美遗传学支持的靶标,如果其化合物在人体内的吸收、分布、代谢或排泄性质不理想,仍然可能在临床试验中失败。
尽管存在这些理论上的不确定性,过去十年间越来越多的实证研究表明,拥有遗传学支持的药物靶标在临床试验中的成功率确实更高。2015年Nelson等人在Nature Genetics上发表的一项标志性研究发现,有遗传学关联的靶标获批率是没有遗传学关联靶标的两倍。此后,King等人、Mountjoy等人以及其他研究团队从不同角度验证了这一发现,有些研究甚至报告了更高的效应量。
但这些研究也面临方法论上的质疑,这些质疑并非无关紧要。最突出的问题包括以下几个方面:
配对层面分析中的非独立性:一个基因可能与多种疾病相关,因此在靶标-疾病对的框架中,同一个基因会出现在多个配对中。如果这些配对被当作独立数据点来分析,就会导致统计效应的膨胀。想象一个在肿瘤领域被广泛验证的靶标,它可能与二十多种不同类型的癌症各形成一个配对,每个配对都因为靶标的成功而被标记为"获批"。在配对层面,这会创造二十多个"遗传学关联导致获批"的正例,但实际上它们都来自同一个靶标的成功经验。
文献挖掘带来的时间泄漏:在构建预测模型时,如果使用了基于文献计量的特征,那么这些特征很可能包含了药物获批之后才发表的文献信息。一个已经获批的药物,其靶标-疾病关系几乎必然在获批后吸引了大量的研究投入,发表了大量的后续文献。如果训练数据中包含了这些获批后文献的信息,模型学到的就不是"遗传学证据预测获批",而是"获批后会有更多研究"——这是一个同义反复,而非真正的预测。
不同治疗领域之间的异质性:肿瘤学、心血管疾病、神经退行性疾病、免疫系统疾病等不同领域的药物开发逻辑、靶标验证标准和监管审批路径都存在显著差异。将所有领域混在一起分析可能掩盖了重要的领域特异性模式。
Victoria Paterson在arXiv预印本平台发布的这项研究(编号2606.14823v1),正是在这些质疑的背景下展开的。作者试图通过更大规模的数据、更严格的时间验证设计、以及系统性的特征消融实验,为这个持续多年的争论提供更清晰、更稳健的答案。
第二部分:数据来源与方法论设计
数据基础
研究的核心数据来自两个互补的公共资源库。Open Targets Platform是一个由欧洲生物信息学研究所(EMBL-EBI)、桑格研究所、葛兰素史克等机构联合建设的开放平台,整合了来自基因组学、转录组学、蛋白质组学、功能基因组学和系统生物学等多个层面的证据,为每个靶标-疾病关联提供综合评分。用户可以通过该平台查询某个基因与某种疾病之间所有已知的证据类型及其强度。
ChEMBL数据库则是由EMBL-EBI维护的大型药物化学数据库,包含从科学文献和专利中手工提取的数百万条化合物-靶标相互作用记录,包括体外结合活性、细胞水平功能活性和临床试验信息。ChEMBL的一个关键特点是它记录了化合物作用的具体靶标,这使得研究者可以追踪哪些靶标已经有了药物开发的历史。
从这两个平台的交叉查询中,研究者提取了26,278个靶标-疾病对。这个数字本身就值得深入讨论。它远远超过了此前类似研究通常使用的几百或几千个配对的样本量,使得研究者能够进行更精细的分层分析和敏感性检验。更大的样本量也意味着更窄的置信区间和更可靠的效应量估计。
需要特别指出的是,26,278这个数字代表的是配对而非独立的靶标或疾病。一个基因可能编码多种亚型的蛋白质,这些亚型可能被视为不同的靶标;同一种复杂疾病(如2型糖尿病)可能被分解为多个亚表型(如胰岛素抵抗、胰岛素分泌不足等)。因此,配对之间天然存在相关性结构——共享同一基因的多个配对之间高度相关,共享同一疾病但靶标在相同通路中的配对之间也可能存在中度相关。这种非独立性对统计推断有重要影响,需要专门的方法来处理。
药物获批的定义
研究中"获批"指的是一个靶标-疾病对所对应的药物已经获得至少一个主要监管机构(如美国FDA、欧洲EMA、中国NMPA、日本PMDA等)的上市批准。这个定义涵盖了所有小分子药物和生物制剂(包括单克隆抗体、重组蛋白、基因治疗产品等),但不包括诊断试剂和医疗器械。
统计方法详述
配对层面的分析使用标准的逻辑回归模型,以是否有遗传学关联作为主要自变量,以是否获批作为因变量。比值比(Odds Ratio, OR)及其95%置信区间和p值作为主要效应量指标。OR大于1表示有遗传学关联的靶标获批率高于没有遗传学关联的靶标。
靶标层面的分析则通过将共享同一基因的所有配对聚合为一个靶标单元来处理非独立性问题。在这种分析中,如果一个基因对应的所有配对中有任何一个获批,则该基因被视为"已获批";同样,如果任何一个配对有遗传学关联,则该基因被视为"有遗传学支持"。这种聚合方式虽然会损失配对层面的细节信息,但能够有效消除因同一基因重复计数而引入的统计膨胀。
Bootstrap重抽样用于估计靶标层面OR的置信区间。研究者以基因为重抽样单元(而非以配对为单元),对基因进行有放回的重抽样,每次重抽样后重新计算靶标层面的OR。重复这一过程数千次后,从OR的经验分布中提取2.5%和97.5%分位数作为95%置信区间的上下界。选择以基因为重抽样单元而非以配对为单元,是这个分析的关键设计决策——它保持了配对之间的自然相关性结构,避免了人为地夸大或缩小基因层面的效应。
第三部分:核心结果深度解析
结果一:总体富集效应
在配对层面,拥有任何遗传学关联的靶标-疾病对,其获批率是没有遗传学关联配对的3.25倍。OR = 3.25,95%置信区间为2.79至3.79,p值为1.91×10⁻⁴²。这个p值极小,即使经过最严格的Bonferroni校正(将显著性阈值除以检验次数),这个关联仍然高度显著。
但这个数字需要谨慎解读。3.25倍的OR是在配对层面计算的,而同一基因可能出现在多个靶标-疾病对中。当研究者在靶标层面进行分析时,OR下降到2.79,bootstrap 95%置信区间为2.22至3.53。下降幅度约为14%,虽然不算微不足道,但核心结论——遗传学关联与药物获批之间存在显著正相关——并未受到实质性影响。
结果二:治疗领域异质性——肿瘤学的特殊性
不同治疗领域之间的差异令人印象深刻。肿瘤学领域的配对层面OR高达6.72,远高于其他领域。这个数字可能反映了肿瘤学中靶向治疗的真实成功——从针对BCR-ABL融合基因的伊马替尼(格列卫),到针对BRAF V600E突变的维莫非尼,再到针对HER2扩增的曲妥珠单抗,肿瘤学确实提供了一系列"遗传学变异直接指导药物开发"的经典成功案例。
但肿瘤学的高OR也可能部分来自统计膨胀。一个在多种癌症类型中被验证的靶标(如PI3K通路中的基因),会与十几种甚至二十几种癌症各形成一个配对,每个配对都被独立计数。如果这个靶标的药物最终获批了若干适应症,那么它在配对层面贡献的"获批"正例数量将远大于其在靶标层面贡献的1个正例。
当研究者转向靶标层面分析时,肿瘤学的OR从6.72骤降至2.71——降幅约60%,远大于总体数据的14%。这直接证实了非独立性膨胀效应在肿瘤学领域的严重程度。对于那些仅基于配对层面分析来评估遗传学证据在肿瘤领域价值的研究,这个发现具有重要的警示意义。
结果三:时间验证——排除"昙花一现"的可能
一个合理的怀疑是:遗传学证据的预测价值可能只存在于历史数据中。随着基因组学工具的普及,越来越多的靶标获得了遗传学关联数据,而这些新增的关联可能质量参差不齐,从而稀释了遗传学证据的整体预测能力。
研究者通过分析2015年以后获批的案例来检验这一假设。结果表明,遗传学关联在新近获批的药物中同样表现出显著富集,OR为3.51,p值为1.72×10⁻⁸。这个数字不仅没有低于全时间段的3.25,反而略高于它。虽然2015年后获批的样本量更小导致置信区间更宽,但核心信号明确存在且未衰减。
时间验证设计还有助于缓解文献挖掘带来的时间泄漏问题。如果一个遗传学关联是在药物获批之后才被发现的,那么这个关联就不应该被视为"预测"获批的证据。通过只使用2015年以前发现的遗传学关联来预测2015年以后的获批,研究者至少在一定程度上控制了这种前向信息泄漏。当然,更理想的方案是使用药物获批日期之前的所有遗传学数据,但这需要对每对靶标-疾病关系建立精确的时间线,在数据可获得性上存在困难。
第四部分:特征消融实验——文献挖掘的主导地位
这是整篇论文中最具方法论深度的部分,也是对整个领域最具警示意义的发现。
研究者构建了一个基于多种证据类型的机器学习分类器,使用AUPRC作为主要评估指标。六种证据类型包括:遗传学关联数据(来自GWAS和罕见变异研究)、文献挖掘信号(基于PubMed的文献计量)、转录组学数据(基因表达模式)、功能基因组学数据(CRISPR筛选结果)、动物模型数据(基因敲除或过表达的表型)、以及其他计算和实验证据。
完整分类器的AUPRC为0.109。当逐一去除每种证据类型时,大多数去除操作对性能的影响微乎其微——除了文献挖掘。当仅使用文献挖掘这一种特征时,AUPRC就达到了0.099,占据了完整模型90.8%的性能。
这个发现令人警醒。在六种证据类型中,文献挖掘一种就占据了分类器几乎全部的预测能力。其余五种——包括人们通常认为最具因果性的遗传学关联数据——加在一起只贡献了约9%的性能。
问题的关键在于:文献挖掘的"预测"能力在很大程度上来自时间泄漏。一个已经获批的药物,其靶标-疾病关系几乎必然在获批后积累了大量文献。如果训练数据中包含了获批后文献的信息,那么分类器学到的是"被大量研究过的靶标更可能获批"——这是一个同义反复。
即使尝试将文献计量的时间窗口严格限制在获批日期之前,仍然存在问题:已经处于临床开发后期的靶标(即更有可能获批的靶标)往往已经积累了相当的文献。这种"准时间泄漏"很难完全消除,使得文献挖掘特征在任何基于回顾性数据的分析中都天然地倾向于高估自己的预测能力。
当研究者排除文献挖掘特征后,剩余五种证据类型组合的AUPRC降至0.084。虽然低于完整模型,但仍为基线水平的1.63倍,说明在去除文献挖掘的"光环效应"之后,遗传学和其他证据类型确实保留着有意义的信号——只是这个信号的强度远不如通常认为的那么强。
第五部分:分类器的实用价值评估
遗传学证据单独带来的AUPRC增益仅为1.0个百分点。将这个数字放到实际场景中理解:假设你面前有100个候选靶标,其中5个最终会获批。一个完美分类器应该能将这5个靶标排在最前面。但实际上,即使加入了遗传学信息,分类器的排序能力也只有微弱的改善——可能需要筛选50个靶标才能覆盖到那5个获批靶标中的6个,而没有遗传学信息时可能需要筛选51个。
更关键的是,最佳模型的校准性很差。一个校准性差的分类器在药物研发场景中可能带来严重后果。假设分类器对某个靶标给出了70%的获批概率预测,决策者可能据此投入数亿美元的临床开发费用。但如果这个靶标的实际获批概率只有10%,那么这笔投资的预期回报将是灾难性的。校准性问题的根源通常在于训练数据中正负样本比例的极端不平衡,以及模型对少数类样本的过度拟合。
研究者因此得出一个谨慎但重要的结论:虽然遗传学证据在群体统计层面与药物获批显著相关,但将其应用于个体靶标的预测时,效果并不理想。"遗传学验证"不应被视为靶标成功的充分条件,甚至不能被视为强预测因子。
第六部分:1,433个遗传学支持的在研靶标配对——实用资源
研究者整理并公开了1,433个同时满足以下三个条件的靶标-疾病配对:拥有来自GWAS或罕见变异研究的遗传学关联证据;对应的药物已经进入I期或II期临床试验;尚未获得上市批准。
这个清单的价值在于它提供了一个有遗传学依据的"中间地带"候选池。这些靶标已经通过了遗传学验证的初筛,也通过了药物开发的早期筛选(至少有一种化合物进入了临床试验),但尚未跨越获批的终线。它们代表了当前药物管线中最有遗传学依据的一部分。
研究者将此清单定位为"假设生成资源"而非推荐清单。这个定位是恰当的——正如研究的主要结论所示,遗传学证据的预测能力有限,这些配对中最终获批的比例预计也不会特别高。但它们确实为后续的机制研究、靶标优先级排序和药物开发提供了有价值的起点。对于研究者和投资者来说,这个清单的价值不在于提供"哪个靶标一定会成功"的答案,而在于提供了一个经过初步筛选的、有据可查的候选靶标集合。
第七部分:敏感性分析与结论稳健性
研究者进行了多项系统性的敏感性分析来检验核心结论的稳健性。
非独立性校正方案的变化方面,不同的非独立性校正方法——包括在基因层面聚合、使用广义估计方程、bootstrap重抽样等——给出了OR在3.25至4.93范围内的估计。无论采用哪种方案,核心结论始终成立。
排除特定治疗领域后,总体OR的变化不大,说明结果不依赖于任何单一领域的贡献。
改变遗传学关联的严格性阈值方面,从"任何遗传学关联"到"全基因组显著关联",OR呈现先升后降的非单调模式。这可能反映了两个对立的效应:更严格的阈值减少了噪声关联(倾向于提高OR),但也减少了样本量和覆盖范围(倾向于增大估计的不确定性)。
时间窗口的敏感性方面,将时间分界点从2015年移至其他年份,结论保持一致。
第八部分:与2015年Nature Genetics研究的详细比较
2015年Nelson等人在Nature Genetics上发表的里程碑式研究,报告了遗传学支持的靶标获批率为无遗传学支持靶标的约2倍。当前研究的配对层面OR为3.25,明显高于这个数字。
差异可能有几个原因。首先,当前研究使用了更大的数据集(26,278 vs 约数千个配对),统计功效更高,能够检测到更精细的效应。其次,从2015年到现在,更多的遗传学关联被发现(特别是来自UK Biobank等大规模生物样本库的研究),更多的靶标被验证,这可能增强了观测到的效应。第三,当前研究对"遗传学关联"的定义可能更宽泛,而2015年的研究可能使用了更严格的证据标准。
靶标层面的OR(2.79)更接近2015年研究的2倍效应,这可能反映了两项研究在靶标层面分析中面临的非独立性校正挑战是相似的——无论采用何种校正方法,靶标层面的效应量似乎都收敛在2到3之间。
第九部分:药物研发成功率的背景数据
药物研发的总体成功率(从I期临床到获批)通常被估计为10%左右,但这个数字在不同治疗领域之间差异很大。肿瘤学的成功率通常低于5%,而某些罕见病的成功率可能超过20%。在免疫学、心血管和代谢疾病领域,成功率通常在10%到15%之间。
当前研究没有直接报告不同领域的绝对获批率,而是报告了有无遗传学关联的相对差异。这意味着即使在获批率很低的领域(如肿瘤学),遗传学关联仍然能够提供有意义的区分——只是绝对增益可能很小。举例来说,如果肿瘤学的基础获批率为5%,那么有遗传学支持的靶标获批率可能提高到8-10%——虽然相对效应看起来很大,但绝对增益只有3-5个百分点。
第十部分:对药物研发生态系统的更广泛讨论
近年来,越来越多的生物技术创业公司在融资时强调其靶标的"遗传学验证"。这项研究的数据表明,虽然遗传学关联确实与更高的获批概率相关,但这个效应的强度远不足以作为个体靶标预测的可靠依据。投资者需要警惕将群体统计结论过度外推到个体靶标的倾向。
文献挖掘特征在分类器中的主导地位揭示了一个系统性问题:学术发表的时间线与药物开发的时间线深度交织。一个在临床后期的靶标自然会吸引更多的研究关注和发表产出,而这些发表又反过来被视为"遗传学验证"的一部分。这种反馈循环可能扭曲了我们对遗传学证据实际预测能力的估计。
特征消融实验的结果表明,去除文献挖掘后,剩余证据类型的预测能力大幅下降。这可能意味着当前数据库在遗传学、转录组学和功能基因组学等"硬"证据方面的覆盖度和质量仍有提升空间。投资于高质量的、与时间线无关的实验证据积累,可能比扩展现有文献计量数据库更有价值。
在临床试验设计中,仅凭遗传学支持就启动大规模III期试验可能风险过高。更合理的策略可能是将遗传学证据与其他类型的靶标验证数据(如基因敲除动物模型、患者来源组织的蛋白质组学数据、早期临床生物标志物数据)相结合,形成多维度的靶标评估框架。
第十一部分:研究的局限性
任何一项大规模观察性研究都不可避免地存在局限性,研究者对此有清醒的认识。
第一,这是一项观察性研究,所有结论都是关联性的,不能解读为因果关系。遗传学关联可能只是标记了那些在生物通路中处于关键位置的靶标,而这些靶标恰好既容易产生遗传学变异,又容易被药物调控。
第二,数据来源的覆盖范围有限。Open Targets和ChEMBL虽然是该领域最大的公共数据库,但它们不涵盖所有已知的靶标-疾病关系。私人制药公司的内部数据、未发表的阴性结果等都可能引入选择偏差。
第三,"获批"是一个二元结果,但药物开发是一个连续的过程。一个靶标可能拥有强有力的遗传学证据,但其药物因为商业原因、制剂问题或竞争格局而未能获批。这些因素与遗传学证据的质量无关,但会稀释观测到的关联强度。
第四,六种证据类型的质量和覆盖度各不相同。文献挖掘作为一种证据类型,其信息密度远高于其他类型,这本身可能反映了当前数据库建设的不均衡,而非证据本身的生物学价值差异。
第十二部分:数据科学方法论的启示
这项研究的一个深层教训是:统计上显著的关联并不等同于实际有用的预测。OR为3.25意味着在群体层面,有遗传学关联的靶标获批率显著高于没有遗传学关联的靶标。但这个群体层面的差异在转化为个体靶标预测时,其区分能力大幅下降。这是统计学和机器学习中一个经典的问题:一个在群体层面高度显著的预测因子,在个体层面可能几乎没有预测价值。
研究者公开了1,433个遗传学支持的I/II期配对清单,同时研究使用的主要数据来源(Open Targets和ChEMBL)都是免费公开的数据库,理论上任何研究团队都可以重复这一分析。研究者在论文中对方法论细节的描述相对充分,包括特征提取的具体步骤、分类器的超参数设置、bootstrap重抽样的实现方案等,有助于其他研究者进行重复实验。
写在最后:关于这项研究的一些个人思考
作为一个长期跟踪基因组学与药物研发交叉领域的观察者,我认为这项研究的最大贡献不在于给出了一个精确的效应量估计——3.25倍的OR也好,2.79倍的靶标层面OR也好,这些数字会随着数据的更新而变化。它的真正价值在于提供了一个方法论范式:如何在存在严重时间泄漏、非独立性和领域异质性的条件下,对一个看似"已成定论"的科学命题进行严格的压力测试。
特征消融实验的启示尤其深远。它告诉我们,在一个高度互联的知识体系中,某些"特征"可能会因为与其他信息的隐性关联而表现出远超其真实价值的预测能力。文献挖掘就是一个典型的例子——它的预测能力并非来自对生物学因果关系的理解,而是来自对已发表研究数量的简单统计。这种"假信号"在任何基于回顾性数据的预测模型中都可能存在,药物研发领域并非特例。
对于中国的药物研发从业者来说,这项研究也提供了有价值的参考。近年来,国内的创新药企在靶标选择上越来越重视遗传学证据,部分企业甚至将"遗传学验证"作为管线推进的硬性标准。这种趋势的方向是正确的——遗传学证据确实是有用的信号——但不应过度依赖。将遗传学证据与其他类型的验证数据(如功能实验、动物模型、临床生物标志物)相结合,形成多维度的评估框架,才是更稳健的策略。
结论
这项研究用26,278个靶标-疾病对的证据表明,遗传学关联与药物获批之间确实存在显著的正相关(OR约3.25),且这个效应在时间验证和敏感性分析中保持稳健。然而,特征消融实验揭示了一个令人警醒的事实:在现有证据框架中,文献挖掘特征占据了分类器几乎全部的预测能力,而遗传学证据本身的AUPRC增益仅为1个百分点。分类器的校准性差,实际预测价值有限。
药物研发是一个高风险、高不确定性、长周期的过程。遗传学证据是这个过程中的一个有用但远非决定性的输入。将遗传学关联视为靶标筛选的必要条件之一是合理的,但将其视为充分条件则是危险的。在数据驱动的决策文化中,对证据力量的准确认知,可能比拥有更多的数据更加重要。
论文信息
评论