前百度主任架构师创业,两年融资千万美元,他说AI新药研发将迎来黄金十年

2020-04-16 16:42:51 浏览数 (1)

作者 | Just

出品 | AI科技大本营(ID:rgznai100)

要在AI医疗领域创业,扎实的AI技术和对医疗行业背景的了解缺一不可,这也是许多创业者想要在此掘金却望而止步或中道崩溃的原因。但是,也总有一些开拓者能不断探索前路,望石智慧创始人兼CEO周杰龙就是其中之一。

早在硕士研究生时期,周杰龙的研究方向就是人工智能。2011年,他加入百度,曾任百度主任架构师,负责百度搜索机器学习排序、反垃圾和移动云语音搜索、拍照搜索等项目。两年后,他带领团队把深度学习引入到百度搜索引擎,用机器学习方法替代了人工规则,他称这是全球首次成功将深度学习应用于大规模搜索系统。

百度工作4年后,他把目光聚焦在医疗行业,并最终确定在深耕新药研发赛道创业。

作为一名从互联网跨界到医药研发的创业者,他越来越发现做药物研发与搜索引擎的逻辑共性,一个非常基础的环节就是不断验证候选化合物与靶点的匹配过程,这类似于用户在搜素引擎中不断得到相匹配的搜索列表。“这些蛋白其实都是原子构成的,在成药的分子里常用的有机化学元素也就10种,你可以把它看成是10个字母,一个分子式是由10个字母所构成的一个句子,靶点是大分子,相当于很长的篇章,所以它像是句子跟篇章之间匹配的关系。”

经过近一年的调研后,2018年,望石智慧正式成立,周杰龙带领团队正式利用AI技术新工具专注早期新药研发。

应用深度学习,在10^60化学空间中搜索有效分子

一般而言,新药研发要先确定靶点,然后去做化合物的发现以进行药物候选,候选药物审批过关后去申报IND,临床试验后才能最终申报上市。总之,这是一个产业链很长的行业。而在药物发现过程中,AI在每一环节都可以发挥作用。

要发现一种新药,相当于要从10的60次方化学空间里去寻找一个有效化合物分子,这是一个庞大空间的搜索过程。

早期,化学家通过已有的医药研发知识,比如在了解靶点架构的基础上展开医药设计,但有时需要的靶点结构并没有被测定,只能找到少数合适的分子化合物。不过,AI的出现可以从已有的庞大药物数据中挖掘更多靶点结构,从而给人类专家在早期药物设计上提供更多思路。

“这就好比要装修一个房子,人类设计师凭个人经验可能只能想出几种构图,但AI学习了大量的建筑和装修设计数据后能推荐出数十种甚至上百种构图,这样就能辅助人类设计师发现新颖的房屋设计图。”周杰龙对AI科技大本营(ID:rgznai100)解释。

当前,深度学习已经在CV、NLP等领域展现出强大的能力,同样地,也可在药物研发的早期环节药物设计阶段发挥强力作用。

药物设计一般会经历多个环节,包括候选分子库生成、分子活性预测、分子性质预测、分子结构优化等。基于GAN和ANN的候选分子库生成技术已得到普遍应用,并展现出良好的性能。机器学习一直是分子活性预测的重要工具,在深度学习发展以前,各种传统的机器学习方法(包括SVM,RF等)已得到普遍应用,并成为非常有竞争力的预测手段。近年来,深度学习技术和计算能力的发展,带来更大的应用空间,研究人员开始逐步采用3D CNN和GCN等网络技术,展现出更优的性能和潜力,为药物设计提供更有效的手段。

对于早期新药发现的AI技术链条,不同的环节有不同的技术路线。周杰龙介绍,通过机器学习,尤其深度学习来做化合物发现,会借鉴搜索推荐技术来预测其一系列性质。而逆合成反应可能又会用翻译模型进行逆合成反应路线设计和分析。最后,信号通路是蛋白与蛋白、基因和蛋白之间的相互作用网络,概率图模型则可以应用到信号通路研究进行建模和推断。

基于上述AI技术,望石智慧目前构建了面向小分子新药发现的智能化药物分子设计及知识图谱两大平台。

两大新药研发的“杀手锏”,覆盖药物早期发现

智能化药物分子设计平台是借助分子进行药物设计,针对药物设计前期的苗头、先导以及候选药物环节,望石智慧用产品的不同子模块去解决对应的问题。

“一个分子可以认为是由骨架和药效团构成,类似于树干和树枝的关系。在药物设计中,骨架跃迁好比对药物分子进行树干部位的修改,而骨架衍生则是对分子的树枝进行变化。”周杰龙解释说,通过骨架跃迁,药物化学专家可以找到破专利的新分子,然后通过骨架衍生找到先导化合物,之后通过分子优化模块,去改善先导化合物的某个性质,在此基础上设计出质量更好的新分子。

在技术上,这三个子模块也有不同的目标和实现方法。

骨架跃迁中一个重要的目标是,找到从整体和药效团角度来看都与输入的参考分子比较相似的分子。因此这里可以借用很多深度学习算法模型,例如语言模型中的翻译模型,将两个相似分子分别看成两种不同的语言,但它们都有核心相同的内容。这样就可以借助模型生成大量相似的分子,供后续筛选、排序使用。后续的筛选和排序算法也涉及到很多深度学习或机器学习方法,是一个很复杂的系统。

骨架衍生是为了从一个不错的骨架生成更有活性的分子,模型能够根据骨架学习到该骨架背后的靶点信息,从而更好地生成可能的侧链。

而分子优化是为了获得在某个性质上更优质的分子,在有一个比较准确的评价方法基础上,可以通过强化学习等方法对整个分子生成过程中进行策略的调整,同时也限制分子生成的相似度,这样来保证生成的分子具有更优质的性质。

目前智能化药物分子设计平台已在学术界和工业界推广使用。

另一方面,望石智慧的药物知识图谱平台成为药物研发中的另一关键利器。

药物知识图谱平台将为药物研发算法模型提供源源不断的高质量数据,同时,由于基于知识与情报的AI医药研发领域是以专利为核心,所以药物知识图谱平台还可以提供靶点、适应症、药物以及基因相互作用和属性信息,帮助药企在立项、调研等工作中提供有价值的参考信息。

深度学习技术在知识图谱中的发挥依赖于大规模高质量数据。公开的专利和发表的文献是药物数据的重要来源,CV和NLP技术是数据的自动化解析和知识图谱构建的手段。

周杰龙表示,对于早期的小分子新药发现,这两大平台已基本涵盖了应有的功能,这也是望石与药企展开项目合作的基础。但由于医药研发周期比较长,望石智慧会在新药发现的不同阶段提供相应价值进行变现。

“不同于基于文本的搜索推荐,上线小流量验证都在线上完成,迭代非常快,但做新药发现无论是推荐一条合成路线还是分子设计,需要花几个月时间才能够把分子合成结果进行反馈。”他说。

当然,目前的AI平台设计也需要不断做技术迭代,包括解决多靶点的问题,与DNA编码化合物库技术、高通量技术以及其他技术的结合。更重要的是,借助平台与合作方进行深度落地实验。一方面他们需要用历史数据进行回顾,确保算法性能,另一方面也需要专家把控,来确定化合物的效用,如此才能验证平台的能力。

目前望石智慧有多个合作项目,其中一个项目是寻找新冠病毒的特效药。今年2月初,通过其两大平台,他们利用新冠病毒RNA的聚合酶抑制剂和核酸,对几十篇新专利进行信息挖掘,运用知识图谱技术进行结构化梳理,找到1400多个化合物并将相应化合物信息与医药机构进行公开分享。

同时他们对新冠病毒RdRp靶点利用计算做了同源建模,利用分子动力学对该复合物进行模拟,然后基于望石智慧分子设计平台,将分子和靶点RdRp进行对接。目前,他们正在与中国医学科学院协和药物所合作一项新冠项目。

结语

2017年,AI 医学影像在资本的助推下成为创业风口,伴随2020年新冠疫情的发生,AI医药研发也旋即升温。

周杰龙认为,公众对这一行业的认知更加迫切,也更明晰,他相信未来十年是中国新药研发的“黄金十年”,而AI会起到非常重要的作用。

他预测,未来2-3年是证明AI技术辅助医药研发的一个非常关键的时期。“ 一个候选药物从早期研发到进入临床要几年时间,如果有多个AI设计的药物进入临床,应该就足以说明这件事情的价值非常大,临床试验成功当然更好。”

望石智慧正在朝这一目标前行。3月中旬,他们宣布融到了由美元基金长岭资本和线性资本联合投资的近千万美元A轮融资,计划下一阶段在核心产品研发,加强与药企CRO上下游之间的合作,以及在引入更多AI和药物研发优秀人才等方面进行投入。

0 人点赞