随着信息技术的不断发展,药物设计方法学的新概念、新方法和新思路持续更新,药物发现范式也与时俱进。人工智能作为新工具,已应用于药物发现过程的多个方面,引起了制药行业的高度关注,也带来了对药物发现科学理论和方法学的新思考和新探索。
中山大学药物分子设计研究中心徐峻教授是人工智能与药物设计领域的知名学者。自上世纪 80 年代末,就长期在科研第一线从事分子信息学算法研究和药物发现实验研究,研究领域横跨化学、药学和信息科学。在本文中,徐峻教授对人工智能与药物设计学的发展进行了系统的回顾、梳理和展望,对药物发现新范式进行了深入的分析、解读和探讨。
全文概要
全文共分五节。
药物发现方法分为基于表型的药物发现(Phenotypic Drug Discovery, PDD)和基于靶标的药物发现(Target-based Drug Discovery, TDD)两种范式。第一节系统阐述了两种范式的发展历程,并简要梳理了基于配体的药物设计和基于结构的药物设计的技术脉络,同时分析了人工智能辅助蛋白质结构预测技术的优势和局限性。
在谈论任何促进药物发现的技术的价值之前,都应当充分认识药物创新模式的变革和演化以及药物作用的本质。第二节探讨了小分子药物与生物药的发展历史,梳理了小分子药物创新模式变革的方向、生物药创新的特色、优势和劣势,以及在生物药的竞争下,小分子药仍然具有的优势。接下来回归到生命的本质和药物作用的本质,总结了理想的药物分子的特点和药物分子设计学的基本问题。
只有理解新技术的实质和方法论,才能更好的将其应用于药物发现实践。第三节从传统的药物设计技术的思路、传统的人工智能方法的学习效果出发,深入分析和比较了人工神经网络、深度神经网络、循环神经网络、双向循环神经网络、长短期记忆循环神经网络、卷积神经网络、注意机制与自注意机制的原理、方法、特点,以及各自在药物发现中多个方向的具体应用,同时也探讨了人工智能在药物设计中应用的局限性。
一个世纪以来,药物发现一直徘徊在 PDD 和 TDD 两个极端的范式之间,近年来, 人工智能辅助药物发现(AIDD)的浪潮也启发了人们对药物发现新范式的探讨。第四节对药物发现新范式的探索进行了梳理,包括药物靶标概念的拓展、药物合成概念的拓展、药物治疗概念的拓展。
生命科学技术的迅猛发展,推动了生命科学大数据的产生。大数据时代的生物医药创新向何处去?第五节总结了现代药物创新涉及的大数据来源、生物医药大数据处理的特殊性,以及将药物创新研究中的大数据与高性能计算结合带来的机遇,同时也分析了当前需要解决的一些问题、终究要面对的问题(生命科学的终极问题)与药物创新的新思维。最后总结了人工智能和药物设计方法学结合可能带来的多方面的突破。
药物发现的历史是研究范式随着技术进步不断演进的历史,人工智能技术必然会带来生命科学的研究范式的变革,这种变革正在发生和继续。
目录
文章目录如下。
人工智能与药物设计学:新范式探索
第一节 引言:药物发现范式的简要回顾
1.1 基于表型的药物发现与基于配体的药物设计
1.2 基于靶标的药物发现与基于结构的药物设计
第二节 小分子药物与生物药
2.1 小分子药物创新范式的演化
2.2 生物药的勃兴对小分子药的挑战
2.3 分子机器与药物分子设计学基本问题
第三节 从传统技术到颠覆性的技术
3.1 传统的药物设计技术
3.2 传统的机器学习方法
3.3 深度学习方法概论
3.4 深度学习技术在药物发现中的应用
3.5 文本挖掘与药物发现
3.6 人工智能在药物设计中应用的局限性
第四节 药物发现新范式探索
4.1 药物靶标概念的拓展
4.2 药物合成概念的拓展
4.3 药物治疗概念的拓展
第五节 本章小结
5.1 大数据时代的生物医药创新
5.2 生物医药大数据处理的特殊性
5.3 生命科学的终极问题与药物创新的新思维
限于篇幅,智药邦公众号将分期连载徐峻教授的该篇文章。以下是文章的第一节。
第一节 引言:药物发现范式的简要回顾
药物发现方法分为基于表型的药物发现 (Phenotypic Drug Discovery, PDD) [1-3]和基于靶标的药物发现 (Target-based Drug Discovery, TDD) [3]两种范式。由于早期的生物学研究技术主要观测生命系统的表型变化,药物发现依赖于基于表型的药物筛选。20 世纪以后,随着显微镜、成像技术和细胞技术的发展,PDD 成为药物发现的主要手段。
最初,人们主要从天然产物筛选药物。随着生物化学和分子遗传学的发展,人们对生命现象认识逐渐深入,分子生物学的“中心法则” (the central dogma of molecular biology) 得到确立。上世纪 70 年代后,基于机理的药物发现成为业界共识。20 世纪 80 年代后,计算机与信息科学与先进制造技术相结合,使仪器小型化微型化,也使生物学检测和化学合成技术微量化通量化。计算机辅助基于结构的药物设计和优化成为主流药物发现技术。这些进展引发了结构生物学、化学信息学、生物信息学、和基因组学为代表的各种生命组学迅猛发展。上世纪 90 年代到本世纪初,高通量药物筛选与药物合成,计算机辅助药物设计与优化、各种生命组学、系统生物学、网络药理学、精准医学逐渐用于药物发现。当疾病的生物学特性复杂且表型模型不可用时 (如阿尔茨海默病),TDD 是唯一选项。因此,TDD 终于成为主流的药物发现范式,大有取代 PDD 的趋势[4]。
近十年来,互联网和移动通讯技术结合,使数据获取和存储技术突飞猛进,人类的信息存储量已进入 EB (Exabyte, 1018 字节) 时代。大数据挖掘的需求常态化,引起了新一波的人工智能技术的发展和应用。2021 年 7 月 15 日西雅图的华盛顿大学 David Baker 团队、伦敦 DeepMind 公司的 John Jumper 与 Demis Hassabis 团队分别在《Science》和《Nature》杂志上发表了基于人工智能技术的高精度的蛋白质结构预测工作(RoseTTAFold 和 AlphaFold2) [5, 6]。这些工作,对结构生物学产生了显著的影响,也为基于靶标的药物发现带来新的希望。人工智能辅助药物发现的热潮正在兴起。
在 TDD 范式下,靶标结构的确定是药物设计的瓶颈之一。而靶标结构和靶标-药物的作用模式需要结构生物学的实验手段 (如核磁共振、X 射线衍射实验或冷冻电镜) 来确定。这些实验方法成本高、周期长,并且难以成功。很多作为药物靶标的蛋白质 (如GPCR 和离子通道类的膜蛋白) 的结构很难被实验确定。因此,人们期待人工智能技术预测药物靶标的结构能够极大地提高药物发现的效率。
然而,药物开发既需要技术也需要科学。技术突破固然可喜,科学理论和方法学上的突破更加重要。
TDD 范式也有一个“中心法则”,即“药物-靶标-疗效”法则 (一个药应该针对一个靶标治疗一种疾病),它是人们所追逐的“重磅炸弹”药物 (blockbuster drugs) 的基础。基于这个法则,药物靶标 (一般是蛋白质) 应该有如下性质:
基于“中心法则”,药物靶标应有的性质
1、疾病发生的充要性:临床证据表明该蛋白质是疾病过程所特有的充要因素、疾病机理的起点,在疾病过程中起关键作用 (调控路径中的关键点或限速步骤);
2、可调控性:能被其它分子 (小分子、抗体、重组蛋白) 所调控,与调控分子有高亲和力 (affinity <10 μM) 的结合口袋;最好是酶 (有可测定性、可筛选性) 有成功的生物学评价先例;
3、高特异性:最好在病原体中表达,在人类或哺乳动物体内不表达;或在疾病状态下高表达,非疾病状态不表达或低表达;
4、可设计性:分子量较低,无跨膜结构域 (产生可溶性活性重组蛋白的几率较高) 有高分辨率、显示配体-受体结构模式的三维结构数据。
按照上述条件,很多蛋白质不适合作为小分子药物的靶标。随着药物发现技术的迅速成熟,适合作为小分子药物靶标的蛋白越来越少。然而人们对药物的需求却有增无减。于是,人们开始寻求新概念药物,例如近年来兴起的生物药 (biologics)。据统计,2005 年至 2020 年期间,FDA 批准的小分子药物对生物药的比例从 9:1 (18:2) 逐步下降到 7:3 (38:15)。小分子创新药物增速降低,一方面因为可药性靶点越来越少,剩下的靶标都是难以成药的靶标,降低了传统的 TDD 范式的成功率 (小分子靶向药的平均成功率为 11%,抗癌药的平均成功率为 5%)。
时间效率是 PDD 的弱点之一。就药物发现周期的中位数而言,PDD 为 25 年,TDD 是 20 年。如果按专利发布到 FDA 批准的时间计算,PDD 需要的时间是 TDD 的两倍。在靶标作用确认与期望的表型反应之间建立因果关系是药物发现成功的关键,而这一点,PDD 和 TDD 都是短板 [29]。机制已知的 PDD 是新药临床试验成功的关键[7]。
TDD 的主要风险是筛选模型与药理活性不直接相关。分子靶点和疾病生物学之间的联系不密导致临床可转化性差。根据人们对 FDA 在 1999-2008 年批准的 75 种药物来源分析,就小分子药物发现而言,PDD 的贡献高于 TDD[8]。人们还发现,在没有 MOA 的情况下,追求与疾病相关的靶标是导致药物发现效率低原因之一。对 1999-2013 年获批的77 个一类新药分析发现,约 58% (45/77) 来源于 TDD [3]。两个分析结果差异的主要原因是对表型筛选的定义不同,前者将所有靶标未知的药物视为来自 PDD,而后者将生物药也视为来自 TDD 的药物。如果只关注小分子药物的发现,近 56% (28/50) 的新分子实体 (NME)来自 PDD。
因此,TDD 范式需要与时俱进,在概念、理论和技术层面都应该有所反思和突破。本章将在检视传统的药物发现范式的基础上,介绍药物设计方法学的新概念、新方法和新思路。通过案例解读人工智能在药物发现过程的应用前景。
1.1 基于表型的药物发现与基于配体的药物设计
基于表型的药物发现可以追溯到“神农尝百草”的时代。通过直接试错来判断一种物质有没有药用价值,最初是直接的临床筛选,后来用动物模型进行药物筛选,再后来还发展了基于细胞水平、分子水平、和生物物理或生物化学水平的以观察表型变化为原理的药物筛选技术。
最简单的基于表型的药物筛选是通过观察细胞对化合物的生物学应答。系统的表型分析源于 20 世纪初,与显微镜和成像技术密切相关,曾经是药物发现的唯一范式。二战后至 20 世纪 80 年代末,生物化学和分子遗传学快速发展,基于表型的方法才逐渐被基于靶标的范式所取代。
随着药学知识的积累,人们逐渐认识到:药物进入体内以后,作用于人体的器官组织产生药效。每种药物都有不同的作用机制,于是,药物发现进入了基于机理的时代。
在分子生物学尚不成熟的时代,药物主要来自天然产物 (植物、矿物、动物)和化学合成物,这个时期是小分子药物的黄金时代。
上世纪 70 年代以前,由于药物作用靶点知识的缺乏,人们通过总结小分子药物本身的结构特点来指导药物的设计、筛选、和优化过程。主要方法是结构与活性相关 (structure and activity relation, SAR) 研究方法。SAR 的本质是发现药物分子中与药物活性相关的关键子结构 (Substructures)。上世纪 70 年代之后,计算机和信息科学迅速发展,人们可以定量地研究 SAR (即 Quantitative SAR,QSAR)。再后来,人们将小分子的三维构象信息纳入 QSAR 研究,甚至将根据化学结构计算得到的理论参数或预测的理化性质 (如分子拓扑指数、分子指纹、logP 等) 纳入 QSAR 的预测模型,于是就有了 3D QSAR 甚至多维 QSAR 的药物设计方法。
上世纪 80 代以后,结构生物学逐渐成熟,很多蛋白质的三维结构通过核磁共振技术和晶体 X 射线衍射技术被解析出来。分子模拟 (molecular simulations) 技术日益完善。生物大分子作为药物分子的靶标成为业界共识。相对于药物的靶标 (targets) 或受体 (receptors),药物分子是配体 (ligands),以药物小分子结构信息为主要研究对象的药物设计方法被称为基于配体的药物设计 (Ligand-based drug design, LBDD) 方法。
在 LBDD 方法的早期,很多研究工作集中在药物分子化学结构的计算机表示、存储、变换、和检索。随着这些问题的解决,人们发展了各种基于配体的药物虚拟筛选方法,例如子结构搜索算法、分子相似度算法。这两种方法比较直观,基于子结构搜索的药物筛选阳性率较高,但是新颖性差;基于分子相似度的药物筛选阳性率较低,但新颖性较好 (因为两个分子拓扑骨架不同的分子可以有很高的相似度)。这些研究工作属于化学信息学范畴 (chemoinformatics)。
早期的化学信息学集中在化学数据库、化学结构的波谱解析、复杂有机分子的合成路线设计三大方向。化学信息领域成为第一代人工智能 (artificial intelligence, AI) 理论和技术的策源地之一。QSAR 是 LBDD 早期的主要方法,这些方法基于各种统计回归模型 (regression models) 建立药物分子中关键子结构 (privileged structures) 与药物活性之间的关系。最初的 SAR 基于这样的经验:具有共同靶标的药物分子应该有相似的骨架 (scaffold), 骨架上有若干个位置可以被子结构 (或功能团) 置换,这种置换可以微调药物分子的成药性 (draggability)。在某个位置上可以互相取代的子结构被总结成生物等排体 (bioisosteres),它们对于药物设计很有用。生物等排体概念是从电子等排体 (如铵根离子与钾离子是电子等排体) 衍生而来的。如果药物分子的共同骨架也可以微调,对药物分子骨架结构进行类似的生物等排式改变 (例如,将五员芳环改变为六员芳环) 就称之为“骨架跃迁” (scaffold hopping)。
最初,这些生物等排、骨架跃迁技术都是在分子的拓扑结构 (俗称二维化学结构) 层面上操作的,相关的分子子结构被称为药效团 (pharmacophore models),意思是说它们如果在药物分子上缺失,药效也就丧失了。随着分子建模技术的完善,人们认为维持分子的药效活性在本质上取决于给定骨架上若干个位置上的原子或原子团 (或子结构) 在三维空间的几何位置组合,称为三维药效团模型。分子场模型 (comparative molecular field approach, CoMFA) 是三维药效团模型成熟的标志。
随着分子结构表示的多样化,更多的统计学的方法被引入 LBDD,例如决策树 (decision trees)、随机森林 (random forest)、簇分析 (clustering)、支持向量机 (support vector machine, SVM)、朴素贝叶斯学习机 (naïve Bayesian learning)、自组织图 (self-organization map, SOM)和人工神经网络 (artificial neural network, ANN) 等。这些方法也被视为早期人工智能技术在药物设计中的应用。
到了 2010 年代后期,LBDD 的方法的创新逐渐归于平淡,大量的药物靶标分子的结构数据因结构生物学的兴起而指数式地积累,基于结构的药物设计 (structure-based drug design, SBDD) 逐渐成为药物发现的主流方法。仅当靶标分子的结构数据仍然缺失时,LBDD 才成为主要的药物设计方法。尽管如此,LBDD 和 SBDD 是相互补充的,SBDD 并不能完全取代 LBDD。LBDD 支持下的 PDD 范式如图 4-1-1 所示:
图 4-1-1. 基于表型的药物发现流程
1.2 基于靶标的药物发现与基于结构的药物设计
基于靶标的药物发现逻辑是:药物分子至少作用于一个靶标 (主要是蛋白质),调控该靶标对疾病的治疗起关键作用,如果正确解析了药物分子与靶标的作用模式,就能设计药物分子、并指导成药性的优化。随着蛋白质结构数据的迅速积累,TDD 范式成为药物发现的基本途径。
TDD 要求疾病治疗药物至少有一个药物靶点以及它和潜在配体有确定的结合模式 (binding mode),然后才能遂行药物筛选。为了提高药物筛选效率,先用基于结构的虚拟筛选 (structure-based virtual screening) 方法减少被测化合物的数量,然后采用实验方法确证被测分子的确与药物靶标分子有相互作用。实验方法可以是基于生物化学的酶活性实验方法,也可以是其它生物物理实验方法,如等离子表面共振技术 (surface plasmon resonance, SPR) 或等温滴定量热法 (Isothermal titration calorimetry, ITC)。
值得注意的是:被实验证明了与靶标的确有相互作用的、或者抑制靶标活性的小分子 (如 IC50 < 10 μM) 不一定就会产生预期的药效 (efficacy)。所有,还要用基于表型的实验来确认基于靶标的药物筛选得到的苗头化合物 (hits) 的药效,即测定其 EC50 值。
传统上,药物 (配体) 对蛋白质的调控方式主要有抑制 (inhibition) 和激动 (hctivation)。设计酶类靶标 (如蛋白酶 proteases、激酶 kinases、组蛋白去乙酰化酶 HDACs) 的抑制剂最直接的方法是调控对酶催化很关键的残基 (一般有三个关键残基,称为催化三联体 catalytic triad)。这种位点被称为酶的正构位点 (orthosteric site) 。因此,酶抑制剂的设计相对容易,而激动剂的设计比较困难,需要寻找它们的别构位点 (allosteric site)。核受体激动剂的设计需要明确受体激动的关键残基位点和配体选择性的关键位点。蛋白质靶标的结构有一至四级结构,二级以上的结构由多个二级结构域组成,形成复杂的分子机器 (molecular machine) 以完成特定的生物学功能。以激酶类蛋白质为例,它们属于一个很大的蛋白质家族,它们的共同特点是有好几个配体可以结合的口袋:铰链结合区 (hinger binding pocket),催化区 (catalytic loop),门控开关区 (gatekeeper area),疏水通道 (hydrophobic channel),背面疏水口袋 (hydrophobic backpocket),糖口袋 (sugar pocket),底物结合区 (substrate peptide)。对激酶催化功能起关键作用的有三个三元组序列骨架 (motifs):
对激酶催化功能起关键作用的三个三元组序列骨架
(1) AXK 序列 (AXK-motif),位于 β-3 折叠区 (激酶有命名为 β1~5 个 β 折叠区),活性位点的赖氨酸残基与来自 C-螺旋保守的谷氨酸形成盐桥,该谷氨酸与天然配体 ATP 的 α 和 β 磷酸基团相互作用以锚定 ATP 的结合;
(2) YRD 或 HRD 序列催化环(β6/β7),其中天门冬氨酸是催化残基,催化过程中作为质子转移的受体;
(3) DFG 序列,它在 A-环 (A-loop) 它的天门冬氨酸残基与 Mg2 离子结合,该 Mg2 离子在 ATP 结合裂缝中与 ATP 的 β 和 γ 磷酸基配位结合以协助磷酸转移到底物上。
非酶类靶标的调控分子的设计可以更加复杂。以典型的膜蛋白 GPCR 家族为例,它有 7 次跨膜区域,在细胞膜内外都有多个结合 loop 区,它们的受体结合区域位于膜内、膜外甚至膜中。GPCR 家族非常大,按照配体结合位置分类,因此设计它们的调控剂之前,需要了解它们属于何种 GPCR 和它们的调控机制以及与配体的结合模式。
核受体家族 (nuclear receptor family) 的配体设计与激酶和 GPCR 家族配体设计有很大的不同。它们的单体有配体结合域 (ligand binding domain, LBD) 和 DNA 结合域 (DBD) ,铰链区 (hinge) 链接 LBD 和 DBD。LBD 口袋内有特定的残基相互作用产生核受体的基础激动活性,设计配体时,需要确切地了解配体需要与这些关键残基相互作用。另外,核受体还会形成同源二聚体 (homodimer) 或异源二聚体 (heterodimer) 形成为高度动态的蛋白骨架,与配体、DNA 或转录协同调节蛋白结合,形成骨架变构改变后续的分子相互作用事件。例如维生素 D 受体 (VDR)、维甲酸 X 受体 (RXR)和同源 DNA 反应元件形成复杂的复合物。在 VDR/RXR 结构域中,VDR/RXR 结构域与 VDR/RXR 结构域之间的结合是延伸的。因此,铰链结构域是 LBDs 与 DNA 相对定向的关键调控因子,这将影响转录协同调控复合物如何朝向染色质。因此,铰链确定特定 DNA 序列如何调节 LBD 中的活动。这是设计核受体调控剂所必须要考虑的因素。
根据靶标的结构特点和调控机理进行药物设计就是基于(靶标)结构的药物设计 (structure-based drug design, SBDD),它标志着药物发现逐渐从经验学科走向理论学科。精确的靶标结构数据的获取是 SBDD 的关键之一。截至 2021 年 7 月 26 日,RCSB-PDB 蛋白质结构数据库已经收集了 180419 个蛋白质三维结构数据,其中有 53484 个结构是来自人类的蛋白,有 13386 个结构与核酸结合。虽然结构生物学技术发展很快,很多蛋白质 (尤其是膜蛋白) 的结构数据仍然难以得到。
近年来,深度学习算法在计算机视觉、语音识别、机器翻译、和生物信息学领域获得巨大的成功[9-11]。为了解决蛋白质折叠问题,西雅图华盛顿大学的 David Baker 团队和伦敦 DeepMind 公司的 John Jumper 与 Demis Hassabis 团队用深度学习技术从已知的蛋白质结构数据习得蛋白质折叠的规律预测蛋白质的三维结构,为蛋白质缺失的数据做了重要的补充。西雅图华盛顿大学和伦敦 DeepMind 公司的上述成就可以被称为人工智能辅助药物设计 (AI-aided drug design, AIDD) 的里程碑式工作。然而,人工智能辅助蛋白质结构预测技术也存在如下局限性:
人工智能辅助蛋白质结构预测技术的局限性
(1) 预测的蛋白质结构仍然需要实验的确认;
(2) 药物设计需要的结构数据是蛋白质与配体的复合结构 (receptor-ligand complexes) 数据,而人工智能预测的是无配体的蛋白质结构;
(3) 蛋白质的构象是高度动态的,受生命体系的各种参数 (如温度、物质成分、pH) 的调控,而目前预测出的蛋白质静态折叠构象与蛋白质的动态行为相差很大;
(4) 预测蛋白质与配体的在蛋白质的何处 (binding-site) 以何种方式结合形成复合结构 (即受体-配体作用模式),不仅仅依赖于蛋白质的一级结构数据,还要结合配体的结构数据。而蛋白质有许多潜在的配体结合位点,蛋白质在体内采用何种构象不仅受到药物配体的影响,还要受到体液中的水分子、离子、辅因子 (如辅酶)、分子伴侣 (如热休克蛋白家族)等因素的调控。这些,都是当前的人工智能预测技术尚未涉及的问题;
(5) 很多蛋白质在体内以多聚体 (同聚体或杂聚体) 形式发挥生物学作用,聚合体的单体数目也主要通过实验观察来确定,尚无理论和技术加以预测,更无法预测配体会在多聚体的界面上还是在单体口袋内与蛋白质单体相互作用,也不知道这种结合是否能转化为药效。
SBDD 支持下的 TDD 范式如图 4-1-2 所示:
图 4-1-2. 基于靶标的药物发现流程
--------- End ---------