2018 年以来,图表示学习和图神经网络成为火爆全球的深度学习方向。鉴于药物分子多为图结构数据,越来越多的计算机科学家开始尝试将图表示学习以及图神经网络引入药物研发领域。
近日,加拿大蒙特利尔学习算法研究所(MILA)唐建教授团队开源了一个通用型药物发现和设计的机器学习平台 ——TorchDrug,涵盖了图机器学习(包括图神经网络、几何深度学习和知识图谱)、深度生成模型以及强化学习等技术。
TorchDrug 是一个建立在开源机器学习库上的深度图表示学习工具箱,整合了分子性质预测、分子从头设计和优化、反应预测、逆合成以及分子重定向等多个任务集。“该平台在通用性、应用性以及可扩展性等方面具有明显的优势。” 唐建告诉生辉。
此项工作还得到了 “原创 AI 教父”、“深度学习三巨头” 之一的 Yoshua Bengio 的指导。
Yoshua Bengio 于 1993 年创办了 MILA,这是目前全球学术界从事深度学习和强化学习最大的研究中心。2017 年,唐建加入 MILA 并担任助理教授,他的主要研发方向是图表示学习、图神经网络、深度生成模型、知识图谱和新药研发,尤其是图表示学习在新药研发中的应用。
图 | MILA 助理教授唐建
“ 2017 年以来,我一直在思考图表示学习未来的发展方向,最终发现图表示学习‘杀手级’的应用方向在生物医药领域,尤其是药物研发。生物医药领域绝大部分的数据是图结构数据,包括分子结构数据、蛋白质结构数据、知识图谱等,图表示学习在该领域有巨大的应用价值。通过开源 TorchDrug,我们计划建立一个开源 AI 药物发现社区,科研人员和制药公司都可以共享这个成果。” 唐建说。
多个模块已开源
读博最后一年,唐建开始尝试将深度学习应用于图结构数据分析中。自 2017 年入职 MILA 以来,他一直聚焦图表示学习在新药研发的研究和应用。
今年是他任教 MILA 研究中心的第四个年头,上文提到的开源平台 TorchDrug 则是唐建团队过去近 4 年来在图表示学习和图神经网络领域研究成果的积累。
据唐建介绍,TorchDrug 主要解决两大类的问题,一是从头设计和优化分子,二是药物重定向,也就是常说的老药新用。
具体来讲,如果要从头发现和设计分子,发现新分子结构,需要完成多个模块任务。首先需要预测分子性质,分子活性、毒性、水溶性等 ADMET 参数;紧接着需要进行分子优化、搜索、设计,在这一过程中通过深度学习模型或者是强化学习模型设计和优化分子,寻找到性质最佳的分子;然后需要考虑如何合成分子,需要找到分子的逆合成路径,合成自然界不存在的新分子。
要发现一种疗效更佳的全新药物分子并非易事,所以老药新用也是一种常见的一种药物分子筛选思路。以 COVID-19 为例,老药新用就是当下寻找潜在治疗药物的主流思路,比如吉利德通过老药新用的方式发现广谱抗病毒药瑞德西韦对 COVID-19 具有一定的治疗效果。
从机器学习和数据建模角度讲,老药新用的核心在于图结构数据,也就是知识图谱的构建,在知识图谱中挖掘药、疾病、蛋白质之间的相互关系。
唐建告诉生辉,评估药物发现平台的关键点包括通用性、应用性和可扩展性,他还从这几个方面讲解了 TorchDrug 的特点。
(来源:TorchDrug 官网)
一是通用性,TorchDrug 是通用型的机器学习模型,适用于不同疾病,针对不同疾病的建模过程本质上相同;
二是应用性,TorchDrug 整合了多个任务模块,同时尽可能减少医药行业的专业知识,比如说对不同的任务模块提供了标准的数据集和评测方法。目前,多个药物发现任务模块已经开通运行。
(来源:TorchDrug 官网)
三是可扩展性,能够加速多个 CPU 或者 GPU 的训练和推理,只需一行代码,用户即可在 CPU、GPU 等设置之间切换。
此外,该团队还计划进一步将该平台扩展多种功能,包括三维结构建模和几何深度学习方法。
AI 新药研发正处于蓬勃发展期
现阶段,AI 之于新药研发,已不再是可有可无的角色。从资本市场再到制药工业,各界对 AI 的态度变得日益明朗。
AI 制药公司的数目也在增加,据统计,美国也有超 100 家 AI 制药初创公司,在国内也有近 50 家初创公司。AI 制药公司数目增长的同时,吸金能力、认可程度也随之提升。
2020 年,AI 制药 “老兵” 薛定谔、AI 制药明星初创 Relay 相继登陆纳斯达克,受到资本市场的热捧。未上市 AI 制药新锐的吸金能力也在高涨,自 2020 年 3 月以来,全球共有超 11 家 AI 制药公司完成了 1 亿美元以上的融资,instro、晶泰相继完成 4 亿美元单笔融资。
现在,AI 制药也开始赢得制药工业的接受,真正应用于产业界中。从英国 AI 制药领跑者 Exscientia 与 GSK、赛诺菲、BMS、拜耳等签单,薛定谔与药明康德、BMS、再鼎携手,再到晶泰一月之内与制药公司达成约 5 项合作...
(来源:vernamagazine)
“我认为,整体而言,无论是资本市场还是学术界、产业界都已经开始认可 AI 在药物研发中的潜力。现在看来,AI 制药正处于早期发展过程中的快速增长阶段,未来仍将蓬勃发展。” 唐建说。
近年来,AI 在制药产业界的进展频频。高喊多年的 AI 制药终于不再束之高阁,而是开始接受临床验证。2020 年,Exscientia 宣布全球首个完全由 AI 设计的药物分子进入临床试验阶段,随后又公布了第 2 个药物分子进入临床。2021 年,Insilico 宣布利用 AI 发现了两款临床前候选分子,其中针对肺纤维化的分子有望年内进临床。
“预计未来 5 年左右,AI 研发的新药可能将会开始真正获批上市。” 唐建预测道。
根据市场调研机构 Facts and Factors 数据显示,到 2026 年,人工智能在制药领域的全球市场预计将达到 82 亿美元,年复合增长率为 47%。AI 制药领域市场发展势头强劲的同时,对新型 AI 技术、深度学习、强化学习模型的需求也将不断增长。
在图表示学习应用于新药研发领域积淀多年后,唐建团队也有志于将科研成果落地转化,他们希望与在生物医药研发领域经验丰富的专家合作共同推进产业落地。
----------- End -----------