近年来,AI在制药行业多种场景中的应用飞速发展。
与此同时,关于AI的使用过程和实际价值引起了许多讨论。
那么,如何更好地使用制药场景中的数据?如何用一种稳健和透明的方式,来评估AI制药方法学的进展,引导人们定义合理的期待?
2022年9月21日,哈佛医学院生物医学信息学系的Marinka Zitnik等人在Nature Chemical Biology发表文章Artificial intelligence foundation for therapeutic science,介绍了一个名为Therapeutics Data Commons(TDC)的平台。TDC旨在访问、评估跨治疗方式和发现阶段的人工智能能力,评价哪些人工智能方法最适合以及为什么适合。
药物发现和开发需要一个开放的机器学习基础
文章提到,研究人员正在研究如何通过自动化、人工智能和新的数据模式使药物发现和开发更有效率。然而,为了支持人工智能在治疗科学中的应用,需要建立一个跨越药物发现阶段的可组合的机器学习基础,以帮助实施最适合药物发现应用的人工智能方法。
作者认为,即便生物和化学研究产生了大量的数据,但由于不完整,大多数生成的数据集并不容易适用于人工智能分析。具体来说有三大方面(数据表示、使用、评估)的问题:
首先,缺乏可用于人工智能的数据集和标准化的知识表示,这让科学家无法将药物发现中的相关问题制定为可解决的人工智能任务。也就是说,存在如何将科学工作流程、协议和其他信息转化为可计算知识的挑战。
其次,数据集可以是多模态的,有许多不同的类型(包括实验读数、注释和元数据),并且散落在生化资料库中。也就是说,存在如何收集和注释数据集以建立人工智能分析的最佳实践的挑战,因为对数据的理解不足会导致错误的结果解释和错误的使用方法。
最后,尽管人工智能方法的计算性能很好,但它们在实践中的应用(如罕见疾病和开发中的新药)却很有限。这就提出了一个挑战,即如何以一种稳健和透明比较的方式来评估方法学的进展,并代表人们在现实世界中的预期。
于是作者提出:人工智能方法和数据集必须被整合,必须制定数据管理策略以减少数据处理和数据共享的负担。这包括优化方法,以确保生化信息(包括基因组数据)的可查找、可访问、可互操作和可重复使用,以及让社区参与确定需要哪些数据。这种发展应该在开源文化中进行,以建立共识,并使药物发现中的最佳人工智能方法得到发展和实施。
健全的基础、现代数据管理、AI基础设施
为了给药物发现和开发建立一个开放的科学机器学习基础,作者团队创建了Therapeutics Data Commons(TDC),这是一个跨治疗方式和发现阶段的人工智能方法的访问和评估资源平台。
来自https://tdcommons.ai/
文章中提到了TDC的结构和概况。
TDC的核心是收集可由人工智能解决的任务、可用于人工智能的数据集和规划的基准。
到目前为止,TDC包含66个可用于人工智能的数据集,这些数据集总共有15,919,332个数据点,分布在药物发现的22个问题上。TDC中的任务和数据集涵盖了广泛的治疗类别(小分子的15个任务,包括药物反应和协同作用预测;大分子的8个任务,包括paratope和表位预测;细胞和基因治疗的2项任务,包括CRISPR修复预测)。
TDC横跨发现的所有阶段(5项靶点发现任务,如识别疾病相关的治疗靶点;13项活性建模任务,如量子力学能量预测;6项药效和安全性任务,如分子生成;4项制造任务,如产量结果预测)。
这些数据集涵盖了不同的生物和化学实体,包括4,264,939个化合物、34,314个基因、3,656个抗体、3,983个抗原、59,951个肽、225个主要组织相容性复合体、7,095种疾病、1,010个细胞系、1,521个引导RNA、3,465个microRNA和1,994,623个化学反应。
TDC中的数据集规模从242到4,649,441个数据点不等,这表明需要人工智能有能力在小型和大型数据集上学习。
TDC中的所有数据集都可用于人工智能,这意味着输入的特征已被处理成机器可读的格式,从而可直接用作训练人工智能模型的输入。
图1:TDC概述。
TDC是一个跨治疗方式和药物发现阶段的获取和评估机器学习和人工智能方法的资源平台。它提供了许多资源,包括可用于人工智能的数据集、机器学习任务和排行榜,以支持人工智能方法的开发、评估和实施。TDC包含跨治疗方式(小分子、大分子、细胞和基因治疗)和开发管道(靶点发现、活性建模、疗效和安全性以及制造)的AI-ready数据集。一个全面的编程包提供了数据和算法功能,包括分子生成oracles、数据处理器和用于创建指示药物发现挑战的人工智能基准的策略。最后,TDC包含了评估和比较人工智能方法的排行榜,倾向于了解哪些ML方法最适合于药物发现应用。
TDC包含数据处理和算法功能,支持人工智能方法的开发(图2c)。它提供了五种策略,将数据集拆分成训练集来训练人工智能模型,验证集来选择模型的超参数,以及测试集来评估模型的性能,并评估模型是否可以推广到训练期间没有看到的数据点。TDC中的数据集拆分(scaffold split, temporal split, cold-start split and combination split)在理论上以机器学习研究为基础,旨在模仿人工智能在治疗科学中的实际应用。
此外,TDC实现了23种性能评估策略,以相互比较不同的方法,了解它们的失败和成功,并评估预测是否可以推广到全新的场景。此外,TDC提供了11个数据处理助手,如数据格式转换、可视化、数据库查询、单位转换和分子过滤。
TDC被组织成一个三层的分层系统,分别为机器学习任务层、药物发现问题的数学表述层、数据集层(图2a),以提供一个综合的资源,并适应新的药物发现应用和新数据的出现(图2b)。
图2:TDC中的AI-ready数据集、机器学习任务和基准。
a,TDC有一个三层的层次组织,使其具有灵活性,能够包括不同类型的治疗方式和机器学习问题。
第一层包括三大类机器学习任务:(i)单实例预测,涉及单个实体的预测,如治疗靶点或开发中的新药;(ii)多实例预测,涉及实体组的标签预测,如由多种药物组成的组合疗法;(iii)生成性问题,支持新实体的生成,如设计具有理想生化特性的新化合物。
在第二层,TDC中的类别包含机器学习任务,每个任务都给出了一个药物发现问题的数学表述。例如,ADME任务研究药代动力学,以预测生物体如何处理一种化学物质。
在第三层,TDC包含了每个任务的数据集。
b,TDC Python软件包,用于检索TDC数据集和支持模型开发和评估的函数。
c,TDC有排行榜,用于比较和评估人工智能方法,并评估它们是否准备好过渡到现实世界的实施。每个排行榜都与一个基准相关联,该基准由一个数据集、一个数据集分割和一组性能指标组成。科学家们将人工智能模型提交给TDC排行榜,在那里模型按性能进行排名,揭示出表现最好的方法。
在评估人工智能方法以决定哪些方法最适合过渡到生物医学和临床实施时,必须超越预测的准确性,考虑方法性能的各个维度,包括稳健性、可解释性和方法的行为的影响。例如,研究更简单、更快、可解释的方法与复杂、更慢但更准确的方法之间的权衡是有参考价值的。
TDC提供了公共排行榜,以支持系统的模型评估和多个维度的比较(图2d)。
每个排行榜都与一个数据集、一个数据集拆分和一组性能指标相关联,以评估不同维度的预测质量。这些排行榜评估了最先进的方法在药物发现的许多任务中的功效和通用性,为方法在现实世界中的表现提供了有效指标。
到目前为止,TDC在4个任务中设置了29个排行榜。(i) 22个ADMET(吸收、分布、代谢、排泄、毒性)排行榜,测试AI方法预测不同结构的化合物类药性的能力(例如,肠道吸收、穿越血脑屏障、细胞色素P450酶的抑制、半衰期、hERG离子通道阻断)。(ii) 5个药物组合排行榜,测试AI方法在59个癌细胞系和9个组织中识别成对化合物之间协同作用的能力;(iii) 1个药物-靶点互动排行榜,测试AI方法预测化合物和治疗靶点之间的结合亲和力;和(iv) 1个对接-分子-生成排行榜,评估生成性AI方法产生具有高效力和合成性的分子的能力。
TDC的应用
文章给出了TDC的多个应用。
案例1。负责lead优化的生物化学家可以利用TDC中的模型,通过提高初始lead化合物的有效性、减少毒性或增加吸收来寻找有希望的化合物。生物化学家将从TDC中检索ADMET数据集,并训练一个模型,从新的或修改过的lead设计开始,准确地预测一组不同的端点(图3a)。
案例2。生物学家进行一个高通量的虚拟筛选,在一个大的搜索空间--包含1010到1020个化合物的库中,找到对感兴趣的蛋白质有亲和力的高性能化合物。生物学家使用TDC药物-靶点相互作用数据集创建一个预测模型,对候选化合物和靶点蛋白之间的相互作用进行评分,有效地按结合亲和力分数的递减对化合物进行优先排序(图3b)。
案例3。假设一位生物化学家发现他们的化学库不包含可以结合人类多巴胺受体D3(DRD3)的高效力化合物。将已知的高效化合物与库中的分子进行比较后发现,额外的高效化合物位于化学库的稀疏区域。这时生物化学家将使用TDC的生成性人工智能模型来探索这些稀疏区域,并设计出能有效对接DRD3的化合物。TDC 还提供了分子对接的oracles,可以指导生成模型探索与初始化学库不同的化学空间,从而产生结构多样的化合物,这些化合物是可以合成的,并有可能与 DRD3 治疗靶点结合(图 3c)。
此外, TDC还可以用其他方式使用。例如,用户可以训练机器学习模型,并创建基于网络的可视化和分析工具,以补充TDC的软件包,为直接查看和操作复杂的人工智能模型的输出提供灵活的解决方案。例如,作者将TDC整合到MolDesigner中,在机器学习对ADMET特性和靶点结合亲和力的预测指导下,对小分子候选药物进行反复优化(图3d)。
打破治疗科学中的障碍
TDC为药物发现中的人工智能提供了基准、方法实现和实施策略。它可以帮助促进可重复性,限制误解结论和误用工具的可能性。
TDC在生化和人工智能科学家之间建立了一个交汇点。这使得我们有可能从不同的角度,以跨越传统界限和多学科的各种思维方式来看待人工智能。
生化科学家可以提出问题,并确定相关的数据集,以处理和整合到TDC中,并制定科学有效的人工智能任务。人工智能科学家可以迅速获得这些任务,并从TDC中检索经过处理的数据集,按照TDC制定的报告指南和评估标准,发展方法和理论。
TDC中的资源被整合到一个开源软件包中,该软件包实现了分析和有效检索数据集的功能,并提供对TDC的编程访问(图2c)。TDC在社区的贡献下不断更新,可在https://tdcommons.ai查看。
参考资料
Huang, K., Fu, T., Gao, W. et al. Artificial intelligence foundation for therapeutic science. Nat Chem Biol 18, 1033–1036 (2022). https://doi.org/10.1038/s41589-022-01131-2
--------- End ---------