阿斯利康正在将数据科学和人工智能技术嵌入到药物研发中,以寻求更好的新方法来发现、测试和加速未来的潜在药物。
本文对近年来 (2020年1月至今) 阿斯利康在AI药物研发方面的15篇论文 (不完全统计) 进行分类整理。
AI与临床前药物发现
人工智能对化合物发现、设计和合成的影响
Miljković F, Rodríguez-Pérez R, Bajorath J. Impact of Artificial Intelligence on Compound Discovery, Design, and Synthesis. ACS Omega. 2021 Nov 29;6(49):33293-33299.
doi: 10.1021/acsomega.1c05512.
人工智能在包括化学在内的不同科学领域得到大力推广。然而,通过人工智能取得的进步仍然存在疑问。本文讨论了迄今为止DL对未来药物化学产生显著影响的一些研究。
新化学物质。目前,关于AI制药重大进展的消息主要来自于人工智能公司和初创公司,他们声称产生了具有吸引力的新化学物质,和/或新化合物开发管线取得了重大进展。这可能是真的,但只要这种努力的结果没有以科学严谨的方式披露和报告,就需要对这些说法不予理会。药物发现中新化学物质的门槛很高,现在判断人工智能是否能带来实质性的变化还为时过早。还需要更多的前瞻性应用的发表才能更好地判断。
合成化学。合成可行性是候选药物进入临床的关键决定因素。因此,合成预测是一个有吸引力的领域,具有影响和改变药物化学的潜力。未来计算机辅助合成规划 (CASP) 工具的一些理想特征包括经过验证的学习策略、反应数据和用户可访问性的增加。
化合物设计。将化合物设计与全自动合成能力相结合对于药物化学来说是一项特别有吸引力的任务。
不确定性估计和主动学习。ML预测的不确定性估计是另一个重要的研究领域,有可能对药物化学中的ML产生重大影响。主动学习的概念与不确定性量化密切相关。
人工智能在生物技术大数据领域的未来
Artico F, Edge Iii AL, Langham K. The future of Artificial Intelligence for the BioTech Big Data landscape. Curr Opin Biotechnol. 2022 Apr 29;76:102714.
doi: 10.1016/j.copbio.2022.102714.
最近的工业4.0进步为开发创新的生物技术解决方案提供了大量数据。然而,需要克服几个挑战才能正确使用数据和新颖的非传统制药技术,以大大加快产品和服务的发现、优化和市场交付。
本文讨论了大数据和人工智能对该领域的未来产生影响的重要方面,并简要介绍诸如超自动化、基础设施即代码 (IaC) 和DevOps (一套将软件开发与信息技术运营相结合的实践) 如何加速大数据和AI的采用。
人工智能是否影响了药物发现
Patronov A, Papadopoulos K, Engkvist O. Has Artificial Intelligence Impacted Drug Discovery? Methods Mol Biol. 2022;2390:153-176.
doi: 10.1007/978-1-0716-1787-8_6.
本文是《Artificial Intelligence in Drug Design》一书的一章 (pp153–176),主要介绍了深度神经网络 (DNN) 在分子生成中的应用进展。
本文分析了分布学习和目标导向学习的概念,然后重点介绍了生成模型在药物设计中的一些最新应用。更详细地介绍了REINVENT,它是阿斯利康集团内部开发的开源软件,是公司许多药物化学项目的AI分子设计支持的主要平台。
在过去3年中,将AI方法引入药物发现取得了令人印象深刻的飞跃。然而,从实际的角度来看,我们距离交付人工智能开发的药物还很远。因此本文讨论了人工智能应用与未来发展的9大挑战:
数据量的大小;
高质量数据的可用性 (大量专有数据不公开。即便是MELLODDY,其不包括原始结构的标记数据不能直接用于分子生成任务,而只能间接用于预测模型的训练);
NN架构 (NN架构以及分子的表征类型与数据同等重要,因为它们定义了归纳偏差的模型。对于要求更高的学习任务,一个明智的方法是开发新的架构,引入适合任务底层结构的归纳偏差);
分子的表征方法 (绝大多数深度生成模型的一个主要限制是它们只能表征和处理分子的二维信息,因此无法区分具有相同2D但具有不同3D方向的分子的立体异构体);
多目标优化的两个挑战 (计算,由于非线性、多维或离散的优化空间等原因,一般情况下的完整解决方案在计算上可能会很昂贵甚至是不可能的;概念,在许多情况下,并非所有需要组合在一起以实现优化目标的目标都是已知的。在其他情况下,即使定义了目标,也无法将其编码为优化算法可以使用的合适数学形式);
合成可及性;
评估基准 (尽管文献中出现了大量新的深度生成模型,但对于如何评估AI生成的分子几乎没有达成共识);
文化挑战。
逆合成可访问性评分 (RAscore) - AI驱动的逆合成规划中可合成性分类的快速机器学习
Thakkar A, Chadimová V, Bjerrum EJ, et al. Retrosynthetic accessibility score (RAscore) - rapid machine learned synthesizability classification from AI driven retrosynthetic planning. Chem Sci. 2021 Jan 22;12(9):3339-3349.
doi: 10.1039/d0sc05401a.
本文报告了一种基于机器学习的方法,能够对CASP工具AiZynthFinder是否能够为某个特定化合物确定合成路线进行分类。所得的ML模型能够返回任何感兴趣的分子的逆合成可及性分数 (RAscore),其计算速度比基础CASP工具的逆合成分析至少快4500倍。
使用AiZynthFinder解决每个数据集的化合物的百分比和所需的运行时间
RAscore展示了快速预筛选化合物以实现合成可及性的潜力,从而能够丰富合成可行的化学空间。
药物发现中的人工智能:什么是现实,什么是幻想?第2部分:化学和生物数据的讨论
Bender A, Cortes-Ciriano I. Artificial intelligence in drug discovery: what is realistic, what are illusions? Part 2: a discussion of chemical and biological data. Drug Discov Today. 2021 Apr;26(4):1040-1052.
doi: 10.1016/j.drudis.2020.11.037.
本文聚焦AI药物发现中的数据问题,讨论了来自不同领域 (即图像、语音、化学和生物领域) 的数据的方面和差异、可用数据量以及它们与药物发现的相关性。未来需要改进我们对生物系统的理解,以及产生足够数量的实际相关数据,以真正推动人工智能在药物发现领域的发展,最终能够发现具有新的作用模式的、并在临床上显示出理想的疗效和安全性的新型化合物。
化学和生物药物发现领域中图像识别和分类任务之间的差异
药物发现领域的可用数据在性质上与人工智能最近取得巨大进展的其他领域 (如图像和速度识别领域) 的数据根本不同。部分原因是难以界定特定终点的相关性 (并为ML模型的成功实现有意义的标签);部分原因是目前缺乏对特定生物系统的了解。在许多情况下,给生命科学数据贴标签是很困难的 (因为生物差异、标签对精确的检测设置的依赖性、标签对场景的相互依赖、以及不一致的命名方案等等),这在药物发现领域应用人工智能方法时是一个严重的问题。
为了真正推动该领域的发展,我们需要了解为何种目的产生哪些数据,这首先涉及到更好地理解生物学。只有当我们能够在体内测量和捕获相关的生物端点时,我们才能够大大推进这一领域,并将目前可用的计算算法卓有成效地应用于药物发现领域。
人工智能驱动药物发现中的分子表征:综述和实用指南
David L, Thakkar A, Mercado R, et al. Molecular representations in AI-driven drug discovery: a review and practical guide. J Cheminform. 2020 Sep 17;12(1):56.
doi: 10.1186/s13321-020-00460-5.
本文提供了一个关于分子结构表征的简要指南。
分子是复杂的结构,它们的表征不仅要考虑各种性质,如立体化学和化合价,还要考虑这些小分子和大分子的不同性质。化学信息学和生物信息学的兴起导致了更快、更有效的药物发现过程以及对分子行为的更好理解。
本文介绍了小分子、聚合物和蛋白质的各种流行符号和表征,以及它们在计算药物发现中与人工智能相关的最常见用途。
药物发现中的许多应用需要同时使用多个表征方法来解决问题。
深度学习在药物靶点预测中的工业规模应用和评估
Sturm N, Mayr A, Le Van T, et al. Industry-scale application and evaluation of deep learning for drug target prediction. J Cheminform. 2020 Apr 19;12(1):26.
doi: 10.1186/s13321-020-00428-5.
公共数据的质量可能与工业数据的质量不同。从公共数据中获得的机器学习模型如何能够很好地迁移到制药行业的内部数据中?
本文利用公共数据来推导出用于分类的预测机器学习模型,目的是将它们转移到工业数据中并评估它们的性能。结果显示,在公共数据上训练的机器学习模型在应用于工业数据时,确实可以在很大程度上保持其预测能力。
下图总结了超参数选择以及机器学习模型的训练和测试以进行前瞻性和回顾性评估的整个过程:前两个阶段 (第1阶段,第2a阶段) 用于执行回顾性性能评估,第三阶段 (阶段2b) 是前瞻性模型评估。
前瞻性和回顾性的模型评估过程,有三个folds (A、B、C)
这是第一项大规模的研究,直接在工业规模设置的层面上评估机器学习,特别是深度学习的潜力。
药物发现中的人工智能:什么是现实,什么是幻想?第1部分:产生影响的方法,以及为什么我们还没有实现
Bender A, Cortés-Ciriano I. Artificial intelligence in drug discovery: what is realistic, what are illusions? Part 1: Ways to make an impact, and why we are not there yet. Drug Discov Today. 2021 Feb;26(2):511-524.
doi: 10.1016/j.drudis.2020.12.009.
尽管人工智能已经对图像识别等领域产生了深远的影响,但在药物发现方面类似的进展却很少。
本文试图说明,以我们当前生成和利用数据的方式,我们不太可能获得使药物发现更加成功所需的更好的决策。
本文量化了药物发现的各个阶段,在这些阶段中,所需时间、成功率或可负担性的改进将对新药上市产生最深远的整体影响。
临床成功率的变化将对提高药物发现的成功率产生最深远的影响。换句话说,关于推进哪种化合物 (以及如何进行临床试验) 的决策质量比速度或成本更重要。虽然目前人工智能的进展集中在如何制造一个特定的化合物,但利用临床疗效和安全相关的终点来制造哪种化合物的问题得到的关注要少得多。
化学信息和生物信息的一些根本差异,这两者对于在药物发现过程中应用AI至关重要
我们能够很好地描述化学,并且有大量可用于建模的代理分析数据,因此这类数据最近一直是该领域人工智能的重点关注领域。然而,药物作用于生物系统,要定义有限的一组参数要困难得多,因此我们也面临着更多的不确定性,即哪个实验读数传达了与功效或安全性相关的信号。
因此,目前的代理数据和可用数据不能充分利用人工智能在药物发现中的潜力,特别是当涉及到药物在体内的疗效和安全性时。解决生成哪些数据和模拟哪些终点的问题将是未来改善临床相关决策的关键。
药物设计中的不确定性量化
Mervin LH, Johansson S, Semenova E, et al. Uncertainty quantification in drug design. Drug Discov Today. 2021 Feb;26(2):474-489.
doi: 10.1016/j.drudis.2020.11.027.
由于新算法的发展、访问量的增加、计算成本的下降以及用于生成化学和生物相关数据的新技术的发展,机器学习和人工智能越来越多地应用于药物设计过程。最近在分子从头生成、合成路线预测以及在一定程度上的性质预测等领域取得了进展。
尽管如此,这些领域的大多数研究都集中在提高技术的准确性上,而不是量化预测中的不确定性。不确定性量化将成为自主决策的关键组成部分,对于整合机器学习和化学自动化以创建自主设计-制造-测试-分析循环至关重要。
这篇评论涵盖了几种方法的不确定性量化策略,并概述了它们如何用于药物设计。我们还概述了不确定性量化对决策的影响。
不确定性估计是人工智能和机器学习在 (a)从头分子生成 (b) 合成预测和 (c) 分子性质预测领域的一个重要方面
药物设计中不确定性估计的重要方面。主要因素可以分为与 (i) 数据集错误、(ii) 输入空间、(iii) 机器学习 (ML) 特征和 (iv) 算法输出相关的部分。
REINVENT2.0:新药设计的人工智能工具
Blaschke T, Arús-Pous J, Chen H, et al. REINVENT 2.0: An AI Tool for De Novo Drug Design. J Chem Inf Model. 2020 Dec 28;60(12):5918-5922.
doi: 10.1021/acs.jcim.0c00915.
过去几年,我们目睹了分子设计药物领域的复兴。在深度学习和人工智能方面的进展激发了人们大量的关于如何将这些技术转化到包括药物设计在内的各种领域的想法。一系列架构被设计出来,以便寻找最佳的使用基于图形或字符串 (SMILES) 的表征来生成化合物的方法。
借助本应用说明,我们旨在为相关研究团体提供一个可用的从头药物设计工具:REINVENT。REINVENT可以有效地应用药物发现项目,在化学空间定位的同时努力解决研究和探索问题,它让研究者将其注意力放在最有前途的化合物上,从而促进化合物的设计。
REINVENT生成模型框架
AI与临床试验
机器学习在临床研究中的作用:改变证据生成的未来
Weissler EH, Naumann T, Andersson T, et al. The role of machine learning in clinical research: transforming the future of evidence generation. Trials. 2021 Aug 16;22(1):537.
doi: 10.1186/s13063-021-05489-x.
人们越来越关注将机器学习应用于临床试验的设计、实施和分析,但尚未调查此类应用的证据基础。
2020年1月,包括领先的生物医学和机器学习研究人员在内的多元化利益相关者群体,以及来自美国FDA、人工智能技术和数据分析公司、非营利组织、患者权益团体和制药公司的代表公司在华盛顿召开会议,讨论ML在临床研究中的作用。
本文回顾了此次会议的主要内容,概述了ML目前用于各种临床研究应用的方式以及可能的未来机会。
FDA提议的工作流程,用于在软件作为医疗设备框架下规范机器学习算法
本文详细介绍了以下内容:
ML在临床前药物发现和开发研究中的作用 (药物靶点鉴定、候选分子生成和机制阐明、临床研究方案优化);ML在临床试验受试者管理中的作用 (患者人群分析,受试者识别和招募,受试者保留、监控和协议约束);数据收集和管理 (从可穿戴设备和其他智能设备收集、处理和管理数据,研究数据收集、验证和监督,安全信号的端点识别、判定和检测,数据缺失问题的解决,数据分析);将机器学习技术整合到临床研究中的障碍 (操作障碍、物理障碍)。
机器学习在提高临床研究的效率和质量方面大有希望,但仍然存在重大障碍,要克服这些障碍需要解决证据方面的重大差距。
数字化临床试验
Inan OT, Tenaerts P, Prindiville SA, et al. Digitizing clinical trials. NPJ Digit Med. 2020 Jul 31;3:101.
doi: 10.1038/s41746-020-0302-y.
"数字临床试验"的概念涉及利用数字技术来改善受试者的准入、参与、试验相关的测量和/或干预措施,实现隐蔽的随机干预分配,并有可能改变临床试验,降低其成本。
2019年4月,美国国立卫生研究院 (NIH) 和美国国家科学基金会 (NSF) 举办了一次研讨会,汇集了临床试验、数字技术和数字分析方面的专家,讨论在临床试验中实施数字技术应用的策略,同时考虑潜在的挑战。
本文以该研讨会为基础,描述了数字临床试验的现状,包括:(1) 定义和概述数字试验的组成和要素;(2) 描述使用数字技术的招募和保留;(3) 概述数据收集要素,包括移动健康、可穿戴技术、应用编程接口 (API) 、数据的数字传输,以及考虑对数据安全、隐私和远程提供知情同意的监管监督和指导。(4) 阐明利用人工智能和机器学习算法的数字分析和数据科学方法;以及 (5) 设定未来的优先事项和战略,以成功利用数字方法和此类技术对临床研究的益处。
用于蛋白质组学和生物标志物发现的人工智能
Mann M, Kumar C, Zeng WF, et al. Artificial intelligence for proteomics and biomarker discovery. Cell Syst. 2021 Aug 18;12(8):759-770.
doi: 10.1016/j.cels.2021.06.006.
在生物医学数据大量生成的同时,计算能力并行扩展,以分析和理解这些数据。从基因组测序和广泛使用的深度测序技术开始,这些趋势现在已经在所有组学学科中占据一席之地,并且越来越多地需要多组学集成以及人工智能技术的数据解释。
本文聚焦基于质谱的蛋白质组学,并描述机器学习,特别是深度学习现在如何仅根据氨基酸序列预测实验性肽测量。这将显着提高分析工作流程的质量和可靠性,因为实验结果应该与多维数据环境中的预测一致。机器学习也已成为从蛋白质组学数据中发现生物标志物的核心,现在它开始优于现有的同类最佳检测方法。
最后,本文讨论了在临床环境中部署基于质谱的生物标志物所需的模型透明度、可解释性和数据隐私。
AI与药物安全
药物安全和代谢中的人工智能
Smith GF. Artificial Intelligence in Drug Safety and Metabolism. Methods Mol Biol. 2022;2390:483-501.
doi: 10.1007/978-1-0716-1787-8_22.
本文是《Artificial Intelligence in Drug Design》一书的一章 (pp483–501)。本章概述了人工智能在药物安全方面的应用,并描述了其在整个发现和开发过程中的应用。
在药物发现中,出于伦理考虑和财务成本,必须合理限制动物试验的使用。3R (改进、减少、替换;refine, reduce, replace) 的范式旨在最终尽可能地取代动物筛查。这使计算机方法的使用更加流行。
本文介绍了计算毒理学的历史、方法,以及人工智能在计算毒理学主要药物安全研究领域 (心脏毒理学、肝毒理学、遗传毒理学、体内药代动力学、数字病理学) 的应用。
验证药物警戒中的智能自动化系统:来自GMP的见解
Huysentruyt K, Kjoersvik O, Dobracki P, et al. Validating Intelligent Automation Systems in Pharmacovigilance: Insights from Good Manufacturing Practices. Drug Saf. 2021 Mar;44(3):261-272.
doi: 10.1007/s40264-020-01030-2.
虽然人工智能等新兴技术凭借其基于数据输入的学习能力,在提高药物警戒方面显示出巨大的希望,但应加强现有的验证指南以验证智能自动化系统。
本文提出了药物警戒自动化系统的拟议分类,以及新兴技术的验证考虑,以支持是否可以使用或应该扩展现有验证框架以构成合理/基于风险的验证策略。本文的主要重点是验证,而不是其他采用考虑因素和实施的潜在障碍。本文考虑在药物警戒中使用智能自动化解决方案,特别是针对 ICSR案例处理等高强度活动。
本文的框架为药物警戒专业人员提供了在其组织内领导技术实施的知识,并考虑了辅助技术系统的构建、实施、验证和维护。
--------- End ---------