> 文章列表 > 利用扩散生成模型加速药物发现

利用扩散生成模型加速药物发现

利用扩散生成模型加速药物发现

随着DALL-E 2和Midjourney等平台的发布,扩散生成模型已经获得了主流的普及,因为它们能够从文本提示中生成一系列荒谬,令人叹为观止且通常值得模因的图像,例如“泰迪熊在1980年代在月球上进行新的AI研究”。

但麻省理工学院安利捷健康机器学习诊所(Jameel Clinic)的一组研究人员认为,扩散生成模型可能不仅仅是创建超现实的图像——它们可以加速新药的开发并减少不良副作用的可能性。

一篇介绍这种新的分子对接模型的论文,称为DiffDock,将在第11届学习表征国际会议上发表。该模型独特的计算药物设计方法是从大多数制药公司使用的当前最先进的工具的范式转变,为彻底改革传统药物开发管道提供了重大机会。

药物通常通过与构成我们身体的蛋白质或细菌和病毒的蛋白质相互作用来发挥作用。分子对接的开发是为了通过预测配体(即药物分子)和蛋白质可以结合在一起的原子3D坐标来深入了解这些相互作用。

虽然分子对接已经成功鉴定了现在治疗艾滋病毒和癌症的药物,但每种药物平均需要十年的开发时间,90%的候选药物未能通过昂贵的临床试验(大多数研究估计每种药物的平均药物开发成本约为1亿美元至2亿美元以上),难怪研究人员正在寻找更快的, 筛选潜在药物分子的更有效方法。

目前,大多数用于计算机药物设计的分子对接工具都采用“采样和评分”方法,寻找最适合蛋白质口袋的配体“姿势”。这个耗时的过程评估大量不同的姿势,然后根据配体与蛋白质的结合程度对它们进行评分。

在以前的深度学习解决方案中,分子对接被视为回归问题。换句话说,“它假设你有一个你试图优化的目标,并且有一个单一的正确答案,”合著者、麻省理工学院电气工程和计算机科学二年级博士生Gabriele Corso说,他是麻省理工学院计算机科学和人工智能实验室(CSAIL)的附属机构。

“通过生成建模,你假设存在可能的答案分布 - 这在存在不确定性的情况下至关重要。

“你现在允许预测多个姿势,而不是像以前那样的单一预测,每个姿势都有不同的概率,”合著者和麻省理工学院电气工程和计算机科学博士生Hannes Stärk补充道,他是麻省理工学院计算机科学和人工智能实验室(CSAIL)的附属机构。因此,模型在尝试得出单个结论时不需要妥协,这可能是失败的秘诀。

要了解扩散生成模型的工作原理,基于图像生成扩散模型对其进行解释会很有帮助。在这里,扩散模型通过一系列步骤逐渐向2D图像添加随机噪声,破坏图像中的数据,直到它变成颗粒状的静态数据。然后训练神经网络通过逆转这种噪声过程来恢复原始图像。然后,模型可以通过从随机配置开始并迭代消除噪声来生成新数据。

在DiffDock的情况下,在对各种配体和蛋白质姿势进行训练后,该模型能够成功识别以前从未遇到过的蛋白质上的多个结合位点。它不是生成新的图像数据,而是生成新的3D坐标,帮助配体找到潜在的角度,使其适合蛋白质口袋。

这种“盲对接”方法为利用DeepMind著名的蛋白质折叠AI模型AlphaFold 2(2020)创造了新的机会。自AlphaFold 1于2018年首次发布以来,研究界对AlphaFold计算折叠蛋白质结构帮助确定新药物作用机制的潜力感到非常兴奋。

但是最先进的分子对接工具尚未证明它们在将配体与计算预测的结构结合方面的性能比随机机会更好。

DiffDock不仅比以前的传统对接基准方法更准确,而且由于其能够在更高的规模上进行推理并隐式模拟一些蛋白质灵活性,DiffDock保持高性能,即使其他对接模型开始失败。

在涉及使用计算生成的未结合蛋白质结构的更现实的场景中,DiffDock将其预测的22%置于2埃以内(被广泛认为是精确姿势的阈值,1Å对应于超过10亿米),是其他对接模型的两倍多,某些模型勉强徘徊在10%以上,低至1.7%。

这些改进为生物研究和药物发现创造了新的机遇。例如,许多药物是通过称为表型筛选的过程发现的,其中研究人员观察给定药物对疾病的影响,而不知道药物作用于哪些蛋白质。

发现药物的作用机制对于了解如何改善药物及其潜在的副作用至关重要。这个过程被称为“反向筛选”,可能极具挑战性和成本,但蛋白质折叠技术和DiffDock的结合可能允许在计算机中执行大部分过程,从而允许在临床试验发生之前尽早识别潜在的“脱靶”副作用。

“DiffDock使药物靶标识别变得更加可能。以前,人们必须对每种蛋白质进行费力且昂贵的实验(数月至数年)才能确定药物对接。但是现在,人们可以筛选许多蛋白质,并在一天内进行分类,“华盛顿大学圣路易斯医学院助理教授蒂姆彼得森说。彼得森在最近的一篇论文中使用DiffDock来表征治疗衰老相关疾病的新型候选药物的作用机制。

“有一个非常'命运喜欢讽刺'的一面,Eroom定律 - 药物发现需要更长的时间,每年花费更多的钱 - 正在通过其同名的摩尔定律来解决 - 计算机每年变得更快,更便宜 - 使用DiffDock等工具。