浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战

2021-06-07 15:12:27 浏览数 (1)

药物开发的技术一直在进步。

近年来兴起的人工智能(AI)技术,在社会生产生活的很多行业已经开花结果。作为第四次工业革命的核心技术,AI在制药行业中的应用和探索也不断加深加快。AI制药的学术、产业、投资等方面都有了新突破和新进展,这在过去的2020年尤为明显。

那么行业专家如何看待AI制药的发展现状和趋势呢?

为此,智药邦对浙江工业大学智能制药研究院段宏亮院长进行了专访。段宏亮院长系统的阐述了AI制药的现状、流程、技术、挑战以及前景,并进行了深入的解读。

专家简介

段宏亮教授现任浙江工业大学智能制药研究院院长,该研究院下设智药大数据、智能药物设计与合成、智能制药装备、智能药物制剂四个研究所,分别从药物研发的各个环节与AI技术进行深度融合。

段教授于中科院上海药物研究所获药物化学博士学位,并于美国获人工智能硕士学位。现主要从事人工智能药物研究方向,共发表高档次SCI收录论文数十篇,作为核心成员开发的抗糖尿病药物以两亿元转让至国外制药公司,作为主要成员研发的三个一类新药现处于临床研究阶段。

段教授详细介绍了AI在药物研发流程中的应用,总结和点评了目前智能制药中的AI技术及各自的特点,并且坦率地描述了智能制药面临的挑战。此外,段教授对几家布局AI制药的互联网巨头,以及头部初创公司进行了盘点。最后,段教授展望了AI制药的未来。专访干货满满。

专访内容如下。

智药邦:现阶段AI是如何助力药物研发流程的呢?

段教授:我先简要地回顾一下传统的药物研发流程。

传统的药物研发中,当某种疾病的靶点确定后,我们会先找到一个先导化合物。接下来我们会针对先导化合物的活性或类药性(诸如水溶性不好、吸收性差、毒性以及代谢性问题)等方面的不足进行改进,比如对先导化合物的结构进行改造,或针对该药物的靶点继续探索新的药物分子结构。经过临床前研究拿到合适的候选药物分子,进入临床一二三期研究,最终成功上市。

AI制药主要目的就是介入到这样一个流程里面,从里面找到可以应用人工智能技术来改进的技术环节。我们今天以化学创新药为例,讲一下AI制药的主要流程和特点。

AI制药的一个很重要的环节就是分子生成,这也是药物分子产生的源头环节。

分子生成,是计算机程序通过对海量的化合物或者药物分子进行学习,获得化合物分子的结构或其他方面的规律。在计算机程序掌握了这些药物分子的规律以后,便可以根据这些规律生成很多自然界从未存在过的化合物作为候选药物分子,形成药物分子化合物库。

分子生成阶段,现在的主要技术有变分自编码器(VAE)、生成式对抗网络(GAN)以及其他基于自然语言处理(NLP)的RNN、LSTM、GRU、Transformer等。其中VAE虽然相对GAN和Transformer来说技术不是最新,但其对药物分子生成这一场景的贴合度很高,反而有极好的生成表现。

通过分子生成得到海量的候选药物分子之后,就是分子筛选的环节。分子筛选可以从很多角度出发。

比如,从化合物的可合成性的角度,判断化学合成是否可行、原料是否易得、价格是否低廉等,从而对化合物库进行削减;从化合物的活性的角度,采用分子对接等技术对化合物库进行筛选;从化合物的类药性的角度,诸如水溶性、脂溶性、渗透性、吸收性、以及毒性、代谢性质等,对化合物进行筛选;或者从知识产权保护的角度,对化合物的专利保护可行性进行筛选;在候选化合物数量比较少的情况下,也可以采用计算成本较为高昂的自由能微扰(FEP)等技术进行筛查。这些不同的筛选技术并不是相互排斥的,而是可以采用不同的先后次序,形成一个筛选的链条,逐一进行。

分子筛选之后,是化合物的有机合成、活性测试。

最终层层筛选拿到的少则几个多则几十个的化合物,会交给实验室的药物化学家进行有机合成。这个过程,对于互联网公司或者AI制药初创公司来说,大多是交付诸如药明康德、康龙化成、睿智化学、美迪西、迪赛诺、凯莱英等CRO外包公司进行的。

合成得到药物分子之后,需要进行药理学的活性测试,同时也会进行类药性(诸如代谢性、渗透性、毒性等)实验评价,看是否符合一个药物分子的各种评价标准。根据拿到的构效关系或者构代关系等,重新返回到药物设计的环节,反复迭代,直到拿到活性好,代谢性佳,低毒甚至无毒的满足临床实验标准的药物分子为止。在改进药物分子各种性质的同时,AI制药研究人员会不断地改进和优化AI制药流程

AI制药这个领域和前几年非常火爆的无人驾驶有些相像之处。

就发展水平来说,AI制药可能现在只能达到无人驾驶领域的L2-L3级别,需要司机辅助的无人驾驶的水平。在一些关键环节,司机需要进行踩刹车或者是调控方向盘的操作。整个AI制药流程的再造,现在也是需要有经验的新药发现者,尤其是药物化学家的干预,这样一个“药物司机”需要不时穿插在上述AI药物研发链条的某些环节进行调控。

智药邦:能谈一下智能制药现在主要用到了哪些AI技术吗?

段教授:就目前来看,智能制药这一领域仍然主要以自然语言处理技术中的RNN、Transformer以及图卷积神经网络(GCN)为主。深度学习这块,近年来最流行的卷积神经网络(CNN)在制药行业的表现和应用,并没有它在图像识别场景中那么广泛,但仍然有精彩表现。

我们先来说说NLP技术。

将NLP技术应用于制药行业是和SMILES编码分不开的,每一个药物分子或者化合物都可以用一串SMILES码这一简化的化学语言表示出来。既然化学分子可以看作一种语言,专注于语言处理的各种NLP技术便自然而然地迁移到制药领域中来了。这一技术兴起于RNN,在Transformer框架中得到进一步地发扬光大。

例如在药物合成路线设计的逆合成分析里面,从产物到反应物,可以看作是一句SMILES码语言到另一句SMILES码语言的翻译,这样就可以直接利用互联网公司开发的各种AI技术来进行化合物的路线设计了。我们惊讶地发现,这一“翻译”概念的引入,其表现已经超过了利用化学反应模板的传统方法,颠覆和碾压了之前多年的工作积累,足以彰显人工智能技术是制药领域不容小觑的一股新生力量。

除了 NLP技术之外,图卷积神经网络(GCN)技术也是一个很强大的解决制药问题的技术。

GCN是把一个化合物分子看为图的形式,将每个化合物的原子看作图的顶点,每个化学键当做是图的一个边,并把图论与卷积论结合在一起,因此,GCN便在制药领域应用开来,并显现了其强大的生命力。

此外,深度学习中的各种技术在不同的制药环节也大放异彩。比如变分自编码器(VAE)、对抗神经网络(GAN)在分子生成中的应用;蒙特卡洛树搜索技术在化合物路线设计中的应用等等。

另外,制药领域存在的一个问题就是数据量太小,而小数聚集在很多深度学习模型上面的表现是比较差的。这时候,很多传统的机器学习技术,比如支持向量机(SVM)、随机森林、梯度提升树(GBDT),甚至逻辑回归等,反而获得了超过深度学习的表现水平。

还有,很多降维技术,比如t-SNE、PCA等技术的引入,能够将制药过程进行降维并可视化,有助于研发者对制药技术进行直观的理解,从而找到一些技术突破点。

智药邦:智能制药行业目前面临着哪些问题呢?

段教授:人工智能技术是非常依赖于大数据的,在AI行业中也一直流行着“数据大于算法”这一说法。只要有了足够多的数据,很多问题就迎刃而解了。

然而,在医药行业中,整个新药发现领域的数据量,总体上是不足的或者说是不足以支撑人工智能模型的运作的。为什么这么说呢?

从工业革命至今可能有两三百年的时间,开发出的创新药也不过是几百到千这样一个数量级,而这些药物又具体分布到数十类疾病或者数百个靶点上面,具体到某一个靶点的新药可能也就是个位数了。即便算上各个靶点Drug Discovery阶段的一些先导化合物或者候选化合物,每个靶点可供使用的数据量非常有限。数据量的严重不足,大大的制约了整个AI制药行业的发展。

这个和AI行业的其他很多子行业不太一样,比如图像识别领域,图像的标注成本相比较而言是比较低的,因而海量数据的获取相对简单一些。在新药发现中,存在化合物的有机合成这一限速步骤,导致每个活性化合物的获取成本非常高昂。无论是从经济成本还是从时间成本考虑,让整个行业来构建海量的数据集都是不可接受的。

那么有什么办法可以用来应对数据问题呢?

一方面,可以考虑从一些行业新技术入手,找到一个替代传统有机化学家的活性药物分子合成手段,构建得到足够大的数据集。

另一方面,考虑如何利用有限的小数据集来训练AI模型。人工智能最终就是要模仿人类的学习思考过程,人类相比较于AI来说,学习过程中是不需要那么多的数据的。比如AI模型对猫的认识,需要几百到几千张猫图片来训练,利用一个CNN卷积神经网络,获得识别猫的这一技能。而对于人类哪怕一个三岁的小朋友,只要有一张波斯猫的图片,他就可以认识到这是一只猫,人类这种学习过程是不需要大量的数据的。

所以,在制药数据极其有限的情况下,我们可以考虑如何利用有限的小数据集来训练AI模型,得到我们想要的结果。具体到技术层面,可以用到一些迁移学习技术,或者Few-shot learning的技术,运用极其有限的数据去解决一些AI制药的问题。

智药邦:AI制药的流程很长,在这众多环节中,有没有哪些环节有希望在短期内得到解决或攻克的呢?

段教授:制药行业包含很多不同的环节,其中化学合成是极其重要的一环。利用AI技术来针对药物分子进行合成路线的设计,相较于制药行业的其他环节而言有一个比较大的优点,就是数据量充足。为什么呢?化学反应的数据量达到了四五千万之多,且这些数据质量很高,很干净,这样的数据量对于AI模型来说已经足够了。

如果经过系统的开发训练,这一AI化学家是有可能打败普通的有机化学研究者的。当然,这一化学反应数据量充足的背后也存在一个问题,这些反应的数据库主要掌握在国外两家数据库公司手里,Scifinder以及Reaxys。所以这个环节很大可能会由上述两家公司首先解决出来。

智药邦:近期有很多互联网巨头陆续开始布局AI制药的报道,这对行业来说是一个什么样的信号?

段教授:对,虽然从2015年开始,国内陆续有一些AI制药初创公司产生,但是刚刚过去的2020年应该算作国内AI制药的元年。

我认为标志性的事件是国内头部互联网巨头跨界,全部开始布局AI制药领域,这其中包括BAT,也就是百度,阿里巴巴和腾讯三巨头。

腾讯大概是在2020年年初进入这个行业,时间上相对比较早,而且已经成功推出首个AI驱动的药物发现平台“云深智药(iDrug)”, “iDrug” 一方面为潜在活性药物的寻找提供数据库和云计算支持,能够覆盖临床前新药研发全部流程的五大模块;另一方面还将为制药公司提供定制化服务,满足药企针对特定靶点或数据体系的个性化需求。

2020年下半年,阿里和百度也分别进入了这个行业,阿里巴巴应该是在阿里云旗下建立了一个AI制药团队,而且还与全球健康药物研发中心(GHDDI)合作,开发AI药物研发和大数据平台。百度则是于2020年9月,成立了百图生科(BioMap),其牵头发起人为百度创始人、董事长兼CEO 李彦宏,足见百度对这个行业的看好以及重视程度。地理维度上,BAT分别在北京、杭州和深圳布局了这一行业。

除了这三家巨头之外,其他的头部互联网公司也都纷纷基于自身AI算法等优势打造药物研发平台,加快进入这个全球最大的生物医药大健康市场。最值得一提的是华为,华为作为中国最硬核的一家科技企业,它也是在2020年进军AI制药行业。它作为我们国家科技行业的顶尖的企业代表,对AI制药行业的投入也具有着很强的风向标的作用。

不仅如此,互联网行业的另一新贵字节跳动也开始布局AI制药。字节跳动是一家以做今日头条和抖音等业务、偏传媒娱乐性的一家公司,它依靠以AI为基础的推荐算法强势崛起,科技实力非常强劲。

至此,整个互联网行业第一梯队的公司,几乎都已经入局AI制药行业,这也代表了整个互联网行业和制药行业的一个有机结合的开始。

代表顶尖AI水平的互联网公司对这个行业可能会带来一些革命性的、颠覆性的改变。

比如Google旗下的DeepMind公司开发的根据氨基酸序列来预测蛋白质结构的AlphaFold2系统,在2020年下半年的CASP比赛中取得了0.92的预测精度,这就是代表AI顶尖技术的DeepMind公司进入医药大健康行业带来的颠覆性进步。因为此前,CASP比赛成绩一直徘徊在0.3-0.4这一不及格的水平。DeepMind的进入,相当于直接将一个考三四十分的差生,变成了九十多分的优等生。

随着对制药行业的持续投入,互联网公司将来必然会成长为中国制药行业一股不可忽视的力量,引领行业发展。他们最大的优势就在于有着非常强大的 AI计算能力,可以弥补传统制药公司或者AI制药初创公司的许多不足。

智药邦:目前市场上也有不少初创型AI制药公司,能从您专业的角度盘点一下您这边了解到的相关公司和它们的特点吗?

段教授:除了上面提到的互联网公司外,AI制药领域的主流力量是一些初创型企业。这类企业数量相对较多,大概有十几二十家主流融资金额在一亿元左右的企业,以及融资金额超过二十亿元的头部AI制药企业晶泰科技。

每一个创业团队自身背景的差异,使得AI制药企业技术流派众多。

因为制药行业本身是一个极为复杂的交叉行业,对其进行细致的划分,可以分成生物靶标的发现、药物设计学、药物化学、药理学、药剂学、毒理学、临床等等环节。会有一部分的AI制药的创业者选择从传统制药的某一个环节作为切入点,另外一些创业团队是计算机或者是人工智能背景出身。

一千个人眼中会有一千个哈姆雷特,每个公司对AI制药的定义和理解都是很不一样的。

像晶泰科技是以晶型的预测为切入点,逐渐拓展到AI制药的各个领域;深度智耀侧重于将自然语言处理技术应用于新药的申报环节;星药科技提供端到端的临床前药物发现服务;宇道生物专注于变构药物研发;费米子科技致力于药物设计平台的开发;望石智慧侧重于新药发现的软件开发;燧坤制药偏好于开发药物的重定向技术;未知君生物专注于肠道微生态的新药开发;剂泰科技专业于智能型药物剂型的开发;冰洲石科技更加专注于利用AI技术对新药的开发等等。这些AI制药初创企业的分布也基本和国内的互联网公司相似,主要分布在北上广深杭等互联网重镇城市。

虽然每个公司的切入点不太一样,但整个AI制药领域的目标是一致的,就是希望AI技术能够提升整个制药行业的研发效率,能够从一个全新的角度重新打磨药物开发的流程。

智药邦:传统制药行业也有意愿在这个火热的新技术市场中分一杯羹,那他们有什么优劣势呢?

段教授:传统的制药企业,如国内的创新药龙头企业恒瑞,以及CRO龙头公司药明康德等在近两年也逐渐进入该领域。另外,很多外企的国内研发中心也在这个方向有布局。

新药开发流程本身涉及到生物、化学等方方面面,流程长且复杂。因此,传统的制药企业的优势在于,对制药技术有非常深刻的理解,他们可以从医药研发者的角度出发,结合业界一些先进的AI算法,对制药行业的发展带来很大的触动。

除此之外,还会有一些其他不太直接相关的公司也切入到AI制药这样一个赛道里面来,其中包括平安保险,以及今年的网红饮料企业元气森林等,都在这个行业进行了布局。

总之,无论是互联网企业,还是传统的这种药企或者CRO公司,又或是 AI制药的初创型公司,主要侧重于创新药的Drug discovery阶段而不是Drug Development阶段。即是从一个靶标或一种疾病的确立,到发现其先导化合物,然后对先导化合物进行构效关系研究,进行活性以及类药性方面的优化,最后使得化合物进入临床PCC阶段的探索和再造的过程。其最主流的业务模式是对化学创新药的流程再造。

不过,这一任务的实现绝非是一蹴而就的,可能会经历些许波折,短期内虽然不能从根本上对制药流程进行彻底的再造,但是哪怕仅仅是对其中的一个小的环节的革新,都会对新药研发成本巨大的制药行业产生深远的意义。

智药邦:能展望一下AI制药的未来,谈一谈您对这个领域‍的预期吗?

段教授:对于整个行业的从业者来说,无论是互联网背景或是医药背景的从业者,都会有其自己的优势,但是各自也存在一些短板。药物分子最终是寻求活性、毒性、代谢性、知识产权等各块木板都不能有明显短板的这样一只木桶,某一个明显的短板都有可能会导致整个药物研发流程再造过程的失败。

对于传统的制药公司而言,希望可以更加明显的提升一下AI技术;而对于互联网公司,或是有着互联网背景或者是创始人为计算机背景的这类初创公司而言,希望可以进一步提升对新药研发流程的理解,可以从医药从业者中吸纳这种新药研发人员,来补足这方面的短板。

最后借用晶泰制药CEO马健博士的一句话结束这次访谈:AI制药,道阻且长,但行则将至。

----------- End -----------

0 人点赞