Adv Drug Deliver Rev｜AI和ML在药物递送中的应用：以传染病的治疗为例

2021年11月，来自哈佛医学院波士顿儿童医院的Sheng He和麻省综合医院的Yanfang Feng等人，在药学顶尖杂志Adv Drug Deliver Rev（药物递送领域，2020年影响因子15.47）发表综述，整理和分析了AI在传染病药物递送方面的现状、挑战、解决方案和未来前景。

以下是全文主要内容。

摘要

在抗生素耐药的时代，对常规抗生素产生耐药性的多重耐药微生物普遍存在，带来了治疗量的稳步增加。传染病是全球发展的巨大阻碍，迫切需要研究新的治疗方案。最近研究表明，人工智能(AI)可以改变药物的递送方式，提升传染病治疗的有效性。在本文中，我们评估了人工智能在传染病治疗中的意义、基本原理和常用方法。具体而言，我们将重点关注当前研究的成果和关键发现，以及人工智能在整个抗菌治疗过程中的药物传递应用，重点关注药物开发、治疗方案优化、药物递送系统和给药路径设计，以及药物递送的结果预测。另外，我们讨论了AI在传染病药物递送方面的挑战及目前的解决方案和未来前景。

1.前言

传染病是由微生物如细菌、病毒、真菌和寄生虫引起的。随着抗生素耐药性(AMR)在全球不断增长，传染病现在被认为是全世界发病率和死亡率的主要原因。此外，传染病已经严重阻碍经济和社会的发展，威胁着政治体系，当前的新冠病毒大流行就是明证。

目前已有大量的抗生素可用来治疗传染病。然而，有效的传染病的治疗仍面临着多个层面的广泛挑战：（1）全球病菌的耐药性比例迅速增加，开发新的抗生素成功率很低。（2）耐药性在广谱微生物中越来越流行，但目前的表型耐药试验在速度上有很大的局限性，而基于分子的耐药试验无法准确预测未表征的耐药性。（3）药物剂量的设置很有讲究，但在每次治疗之前，对每一种可能的剂量方案进行实验测试成本高昂且不切实际。（4）联合使用抗生素能够有效抑制多耐药性的病菌，然而对药物组合的实验筛选是非常耗时昂贵的。

随着人工智能（AI）及机器学习的迅速发展，上述挑战可以在很大程度上得到克服。AI在计算机视觉、自然语言处理等领域展现出了非凡的优势，这些优势表明AI及机器学习方法非常适合辅助传染病治疗中的药物递送：（1）能够在大量且复杂的数据中进行有效特征提取，达到精准预测；（2）可以形成新的规则，检测未预见的模式，并从数据中揭示隐藏的知识，比如预测耐药性；（3）具有极强的信息处理和快速分析的能力。(4) 通过在移动或临床可用的设备中嵌入计算软件，它可以在护理点运行，成为抗感染药物递送方法临床决策的实用工具。(5) 它可以整合和学习微生物、患者和抗生素的新变量，实时改进其性能，并生成足够灵活的给药计划，以适应常见的和持续的病原体进化。

由此可见，AI能够给传染病治疗带来革新。本文首先介绍了常用的AI及机器学习的概念和模型，再介绍AI在传染病治疗中的应用（药物研发、耐药性预测、药物剂量优化、药物组合选择、药物递送系统改进、给药途径设计、临床疗效预测），最后对AI辅助传染病治疗的药物递送进行讨论及展望。

2.基本的AI和机器学习概念和工具

2.1 机器学习的基本概念

机器学习属于AI的范畴，能够学习复杂的输入输出之间的映射关系，在本文中对机器学习与AI两个概念不加区分。

图1. 机器学习模型的基本框架

如图1所示，机器学习主要包括四个部分：变量输入、特征工程（特征的提取和选择）、模型训练和结果输出。输入的变量通常形式多样，并且是高维的，比如病原体基因组、临床数据等。一般而言，这些变量不能直接被模型所利用，因此需要特征工程将输入变量提取成计算机可以读取的形式，再选取有用的特征进行模型训练。处理过的特征可以表示成向量形式，输入到模型中可以得到结果输出，例如耐药与否、剂量选取量等。模型训练就是利用已有的数据集，调整模型的参数使得模型的输出尽可能接近对应的真值（标签）。通过此法训练的模型，可以泛化到没有见过的样本中，输出其预测值。

依据不同的分类方式，机器学习方法可以进行不同的分类。对于有无真值（标签），机器学习可分为监督学习和无监督学习；对于任务分类，机器学习可分为分类任务和回归任务。

在数据集大小受限的情况下，可用交叉验证的策略去评估机器学习模型的表现。在具体的评价指标方面，准确率、真阳性率、真阴性率等可用于评价分类性能；均方差、平均绝对值差等可用于评价回归性能。

2.2 常用的机器学习模型及其特性

图2是已经用于传染病治疗尤其是药物递送方面的典型机器学习模型。

图2. 在传染病治疗中常用的机器学习模型

Boost

Boost是一种集成学习，目的是训练具有相同结构的多个模型，以提高预测的鲁棒性。集成学习用随机初始化的参数训练多个模型，生成一组可供选择的模型。最后的预测结合了来自这些不同模型的预测，以减少它们的噪声、偏差及方差。

Boost模型在临床试验中被广泛使用，具有以下特点：（1）相比于单个预测器，预测的准确度更高；（2）能够处理相关的数据，并能有效处理稀疏和不平衡的数据。

决策树和随机森林

决策树是基于规则的机器学习方法。典型的决策树是链的树状表示，其中一个根节点代表整个训练数据集，分支节点代表决策，叶节点表示累积选择的结果。每个分支节点根据节点上定义的分割规则将数据分割成同质子集。常用的决策树模型有：ID3, C4.5和分类及回归数(CART)。

随机森林是将决策树方法集成的模型，能够结合不同决策树的预测来提高机器学习模型的整体性能。

决策树和随机森林模仿了人类决策的处理过程，它由回答一系列问题(分支节点上定义的分裂规则)组成，这些问题可以通过遵循树中包含一组分支节点的路径自然解释。

支持向量机（SVM）

支持向量机是一种基于实例的机器学习方法，广泛应用于传染病的分类和回归。通过使用“核技巧”，支持向量机可以将数据从原始的、低维的、数据不可线性分离的输入特征空间映射到高维的、数据可线性分离的隐空间。

支持向量机具有优秀的分类和回归性能，能够利用核函数度量复杂数据之间的距离。然而，核函数的选取会影响SVM的性能，一般只能通过经验选取核函数，缺乏权威的准则来指导核函数的选取。此外，SVM的可解释性比较差。

k 近邻算法（kNN）

kNN是基于实例的分类算法，其对测试样本类型的预测源自对训练集样本的分析。在某种距离度量下，对一个测试样本的预测会考虑到其最近的k个训练样本点的类型。例如，其最近的k个训练样本中，A类占多数，B类占少数，则待预测的样本点的类型就有很大概率被预测为A类。kNN 容易实现并且对数据中的噪声具有鲁棒性。它可以在具有相同数量的正负样本的小数据集上提供良好的性能。

逻辑回归

逻辑回归是医学应用中广泛使用的用于解释临床数据的判别模型。逻辑回归是一种线性方法，它通过将输入特征向量映射到输出直接计算后验概率，而不考虑输入和输出的联合分布。

逻辑回归由于其参数的可解释性，是一种性能突出的二元分类或回归模型。但它的一个局限性是，它需要特征与对数概率之间的线性假设，而这在说明传染病(如HIV)的暴露-反应关系时往往不能令人满意。

人工神经网络（ANN）

ANN也被称为神经网络，是模仿了人类大脑的神经元而构建，正如图2所示。其包含了相互交互的人工神经元，这些神经元就是最基本的信息处理单元。ANN作为最常用的机器学习模块，其第一层用作特征的输入，中间的隐藏层会对特征进行各种线性和非线性变换，输出层会输出所需的信息（比如对样本类型的预测概率）。神经网络使用方向传播的方式进行训练，通过计算输出和真值的误差来调整神经网络的参数，最后使得在神经网络在训练集上的误差尽可能的小。

ANN对高维的数据具有很好的学习能力，因此在近年的机器学习任务中备受青睐。在本文中，我们使用人工神经网络来表示所有类型的神经网络，包括一般的人工神经网络、多层感知器和卷积神经网络。

表1. 用于传染病治疗的机器学习模型及其特性

此外还有集合覆盖机（SCM）、反馈系统控制（FSC）和朴素贝叶斯等机器学习模型，由于其流行度不高，这里不再赘述。以上提及的机器学习方法的优缺点如表1所示。

3. 目前的研究与应用

当前AI在传染病治疗的研究及应用如图3所示。

图3. AI在传染病治疗中的研究及应用示意图

3.1 药物开发

AI赋能药物开发涉及多个方面，包括药物筛选、药物重定位、药物设计、药物合成以及药物临床试验设计和实施。常用的AI技术有：支持向量机、随机森林、逻辑回归、kNN等。

目前人工智能在传染病药物开发中的应用主要集中在药物发现和对微生物的重新定位，这些微生物目前的治疗选择很少或没有，这在很大程度上是由于耐药性在世界各地的流行。在细菌感染方面，利用AI模型发现了结核分枝杆菌、阴道毛滴虫、等新型活性治疗药物。为了克服HIV和SARS-CoV-2病毒感染的治疗挑战，人工神经网络和包括kNN、决策树、随机森林、支持向量机和深度神经网络等多种机器学习模型的组合分别被用于发现新的有效化合物。此外，例如Maryam的研究，利用支持向量机，针对真菌感染药物筛选准确率可达到90%以上。

3.2 耐药性预测

表2展示了AI预测耐药性的主要研究。其输入数据包括：（1）病原体DNA序列，该序列可以是全基因组序列(WGS)，也可以是仅包含耐药性的相关基因序列；（2）患者人口统计资料(如性别、年龄)和医疗信息(如血压、发病症状等)；（3）病原体基质辅助激光解吸电离飞行时间质谱分析(MALDI-TOF MS)；（4）病原体蛋白序列；（5）病原体RNA序列等。

在耐药性预测中，常用的AI模型包括：支持向量机、随机森林、Boost、人工神经网络、决策树、逻辑回归、k近邻算法、朴素贝叶斯等。

耐药性预测研究的结果包括两个方面：（1）病原体对相关的抗菌剂的耐受谱；(2)耐药模式在特定病原体中的存在可能。

表2. AI预测耐药性的主要研究

在大多数研究中，人工智能算法被用于确定每种病原体对抗生素的耐药性的分类（即敏感、中间或耐药）。然而，有研究使用人工智能来提供病原体 AMR 特征的定量信息，比如用来预测抗菌剂对N. gonorrhoeae的最小抑制浓度。此外，AI还能够预测病原体的特定耐药类型，以此决定治疗方式。

3.3 药物剂量优化

基于抗生素或患者的特征，研究者已经开发了多种机器学习策略来预测抗生素剂量阈值，以达到期望疗效。例如，利用定量结构-性质关系，一种基于人工神经网络的模型被用作预测抗病毒药物的最大推荐剂量。在另一个例子中，Deshpande等人使用包括随机森林和CART分析在内的人工智能算法集成确定了治疗多药耐药性结核分枝杆菌的最佳左氧氟沙星剂量。

相对于单次的静态给药方案，在治疗过程中适应不断变化的病原体和患者状态的系统给药方案更适合于持续的感染控制。在这方面，人工智能也显示出了巨大的潜力。例如，建立了一个具有自适应设计的神经网络，根据细胞浓度、抗体、病原体和器官损伤生物标志物的值的耦合变化来进行给药剂量设计。

3.4 药物组合选择

在与多种耐药的病原体斗争中，药物组合能够展现出独特的功效，然而，只有选择好了正确的药物组合才能达到治疗的效果而不是产生毒性。一般而言，人工智能系统用于药物联合设计的输入变量可分为三组。

第一组是基于药物的，通常包括药物的二维和三维物理和化学参数，以及药物的靶标和疗效概况。第二组是基于病原体的，主要包括病原体的基因组(如包含期望感兴趣区域的基因型序列)和给药引起的病原体的运动、增殖、运动等变化。最后一组是基于患者的，通常包括患者的人口统计资料(如年龄、性别、身高)、单核苷酸多态性标记物等。

用于药物组合设计的AI模型主要涉及：XGBoost、朴素贝叶斯、决策树、k最近邻算法、人工神经网络等。这些模型输出包括：(1)药物组合是否具有协同作用(二元结果，是或否)，(2)药物组合的协同概率得分，(3)药物组合实现微生物学或治疗成功的概率。

AI已被用于针对细菌、病毒、寄生虫和真菌中各种感染性病原体的药物组合设计。例如，利用反馈系统模型，已经确定了对治疗广泛耐药结核病非常有效的三种和四种药物组合。另一个研究使用随机森林可实现2.8倍的协同富集，显著减少了在大肠杆菌中发现新的协同组合的时间和成本此外，通过遗传算法优化美罗培南/多粘菌B联合给药对耐碳青霉烯鲍曼不病菌的给药策略。此外，人工智能平台已经开发出了丙肝病毒(HCV)、SARS-CoV-2、乙肝病毒、埃博拉病毒、水泡性口炎病毒、单纯疱疹病毒-1的最佳联合疗法。

3.5 药物递送系统的提升

随着信息技术的进步，计算机辅助优化药物输送系统的稳步发展吸引了越来越多的兴趣。机器学习，特别是人工神经网络，被证明是一种稳健的工具来建立药物处方参数和药物释放模式之间的关系，这极大地促进了定制药物给药系统的发展。例如，利用ANN，在女性受控药物给药系统(FcDDS，一种黏胶凝胶形式的阴道内屏障装置)中，揭示了处方/生理变量与负载抗感染剂十二烷基硫酸钠释放谱之间的定量关系。在另一个例子中，人工神经网络成功地用于预测配方参数(即载药百分比、致孔剂类型和致孔剂含量)和耳蜗植入涂层地塞米松释放谱。

与单一的人工智能模型相比，结合一系列人工智能算法的更先进的模型被发现在评估涉及药物从载体系统释放的依赖变量和自变量之间的关联方面更有效。例如，设计了一个级联计算机模型(CCM)来预测来自黏液制剂FcDDS的药物扩散率，这在上文中已经讨论过。这个CCM由三个基本的人工智能模型(即kNN、统计回归模型和修正后的反向传播神经网络)组成，它们彼此紧密协作，顺序运行。结果表明，分类器的顺序集成可以在显著降低方差和缩短训练阶段的情况下实现精确的域预测。所开发的CCM可作为一种有价值的工具，用于从黏合剂配方评估药物扩散率，了解治疗药物如何从载体扩散并在不同的临床条件下发挥其效力。

3.6 给药途径的设计

随着AI的出现，最好的给药途径现在可能不需要繁琐的实验室检测。Shobana和Bushra报道了一个基于AI的给药路径设计的典型例子。通过逻辑回归、随机森林和决策树等机器学习模型，作者能够根据药物的药理和理化特征，将药物分为口服、非口服和外用三种类型，准确率在90%以上。

确定给药途径后，还可以通过AI平台进一步优化给药路线。例如，为了解决通过传统皮下注射针注射微粒的效率低下问题，Sarmadi等人建立了基于人工神经网络的框架。该AI平台可根据与针头、注射溶液（即，注射溶液的微粒大小、针头大小和粘度）和微粒相关的变量，准确预测并有效优化基于微粒的药物制剂的可注射性。与标准商用注射器相比，定制注射系统是基于所提出的AI框架设计的，能够将大微粒的注射能力提高六倍。这项工作证明了人工智能在微粒药物给药途径优化方面的潜力。

3.7 药代动力学的预测

AI已经成为一种强大的工具，能够克服目前的药代动力学预测方法（体内和异速生长技术）的局限性。AI也可以改变计算药代动力学模型。与传统的药代动力学建模不同，AI可以通过处理许多观测数据和发现数据中的模式来估计未知值，从而可以在不知道药物在体内代谢的规则的情况下估计药物的药代动力学参数。

利用先进的AI算法，如人工神经网络、多元自适应回归样条、QBPM模型基于患者因素(如人口统计学变量、给药方案、给药方案、综合代谢谱)，在预测多种抗感染药物的药代动力学参数方面取得了令人满意的准确性，包括血浆庆大霉素的峰谷浓度，血浆妥布霉素水平，甲氧苄啶-磺胺甲恶唑的药物清除率和分布体积，氨苯砜的药代动力学吸收、全身清除率和分布体积。

值得注意的是，AI可以同时预测多个药代动力学参数，而不需要单独的模型或单独的训练。Turner等人给出了一个典型的例子，他们建立了一个可以同时预测6个药动学参数的多输出ANN模型，参数包括头孢菌素的药物半衰期、肾脏和全身清除、尿中排泄的分数、分布体积和与血浆蛋白结合的分数。

3.8 预测临床疗效

表3展示了AI用于疗效预测的代表性研究。

表3. AI用于临床疗效预测的代表性研究

由于AI展示出卓越的预测效果，研究人员正在着手构建用于传染病临床疗效预测的AI工具。这些AI工具大多基于病因和/或个体患者的特征(输入)。对于病原学，常用的特征包括基因型、耐药相关突变和药敏水平。对于患者，常用的特征一般分为四类，即患者的人口学信息(如国家、发病年龄、性别、种族、社会危险因素)，临床特征(如共病、感染途径、基线病原体负荷、治疗记录、当前治疗方案、以及药代动力学变量和单核苷酸多态性)、实验室检测结果(如全身炎症介质水平)和放射学检查(如X光片和CT扫描)。

如表3所示，用于结果预测最常用的人工智能模型包括ANN、随机森林、逻辑回归、支持向量机。这些人工智能模型主要用于预测特定疗法的失败，即治疗后的病原体载量减少或培养转化或死亡。它们也可用于预测其他预后参数，如持续发热、体重减轻、结肠切除术、呼吸/心脏骤停和休克。

在治疗和各种细菌感染的预后方面，人工智能的临床结局预测已经取得了成功。例如，使用随机森林、CART/递归划分等人工智能模型，可以实现对结核病治疗失败或死亡的高精度预测。

4. 现存挑战和未来展望

4.1 模型可解释性

众所周知，AI是一个“黑箱”系统。对于AI依据输入样本做出的预测，人们通常不知道这个结果如何得出，更难以从AI预测中提取出一些新的洞见。

如何使得AI预测的结果更具有可信度，一种解决的方法是去分析模型输入对结果的重要性。例如，置换特征重要性是在给定特征的数据被打乱时对模型性能变化的度量，可以用来实现模型解释。该方法被应用于鉴定导致对属于同一化学类别的所有抗菌药物产生耐药性的新耐药突变。另一种方法是使用注意力机制，对每一维特征赋予学习的注意力系数（权重），通过注意力系数的大小判断特征的重要性。

4.2 特征工程和模型选取

如上文所述，大多数AI模型需要从源数据中提取能够被计算机处理的特征。然而，对特征的提取及选取都会涉及特定领域的知识，这一点很具挑战性。此外，AI模型的种类多种多样，不同的模型会对不同的任务有着差异明显的表现，如表4。针对某种特定问题，如何选择AI模型，也是一个值得思考的问题。

表4. 不同AI模型在抗菌药物递送任务上的表现对比

特征提取方法因输入数据类型而异。对基因组而言，将病原体的基因组数据组装并分裂为k-mers，作为机器学习模型训练的输入特征。对临床变量而言，如患者人口统计学和临床信息，可以直接用作机器学习特征。在特征选取方面，主成分分析(principal components analysis, PCA)是一种广泛应用的线性降维方法。在Yang等人的研究中，采用PCA来探索遗传变异的潜在结构。

在模型选择方面，最常见的解决方案是运用多种广泛使用的机器学习方法，根据训练和测试数据集找到最优的模型，如表4。例如，最流行的基因或临床变量机器学习模型包括随机森林、SVM和ANN。对于药物优化，反馈系统控制被广泛应用。对于图像数据，深度卷积神经网络通常比其他机器学习模型更强大。机器学习模型的最佳性能还取决于数据集的大小。当有大规模数据集时，由于在预测问题中具有竞争性能，深度神经网络通常是最好的模型。

4.3 数据集

高质量的数据集对AI模型的训练起到关键作用。一个高质量的数据集，应该是大规模的、样本同一标记过的、不同种类样本数量均衡的。由于测试困难性、病人隐私等原因，许多传染病数据集规模较小且不公开；由于不同研究组在通过实验构建数据集时，给出的标记不一，导致数据集难以统一。例如，一些研究将病原体分为“药物敏感”或“耐药”两类，而另一些研究将它们分为“药物敏感”、“介于敏感与耐药的中间态”和“耐药”三类。此外，由于样本选取及实验条件受限，会导致样本类别的分布极其不均。

表5. 抗菌药递送的公开数据集

因此，有必要呼吁全球各个相关研究机构制定统一的实验标准，共同扩充公共数据集。一些与抗菌药递送研究相关的数据集如表5所示。

5.结论

总之，人工智能是一种很有前途的工具，可以用来克服目前在传染病治疗药物递送方面的挑战，这在很大程度上归因于耐药性的全球流行。目前已有研究表明，AI可以辅助传染病药物递送的整个治疗过程，包括药物开发、耐药预测、药物给药优化、药物组合选择、药物传递系统改进、给药路径设计、药物药代动力学特征和药物治疗结果预测。

为了促进人工智能在传染病药物递送领域的进一步发展和实际应用，未来的工作重点是提高人工智能模型的可解释性，优化特征工程解决方案，指导人工智能模型选择，提高源数据质量。

参考资料

He S, Leanse L G, Feng Y. Artificial intelligence and machine learning assisted drug delivery for effective treatment of infectious diseases[J]. Advanced Drug Delivery Reviews, 2021: 113922.

----------- End -----------

特征工程决策树机器学习深度学习人工智能

0 人点赞