2022年8月2日,Nature发表了一篇简短的评论文章,从AlphaFold的技术成就出发,讨论了如何实现AI的全部潜力。文章提到了两个重要观点:
为了充分利用人工智能,数据和软件必须自由共享,计算、理论和实验研究人员必须紧密合作。
上周,DeepMind宣布其研究人员已经使用AlphaFold预测了来自100多万个物种的2.14亿个蛋白质的结构,基本上囊括所有已知的蛋白质。
AlphaFold显然是近几十年来生命科学领域最令人兴奋的发展之一。截至上周,来自190个国家的50多万名研究人员已经访问了DeepMind自去年7月以来发布的200多万个蛋白质结构。这些结构可在一个开放的数据库中获得,该数据库由位于英国剑桥附近的欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)共同维护,该政府间组织致力于将生物数据作为公共产品来维持。
欧洲生物信息学研究所南楼外景
如果没有在英国剑桥附近的EMBL-EBI维护的存储库中公开共享的研究,明天的人工智能应用就不会发生
人工智能在生命科学领域将继续存在。但是,为了验证和发展这项技术所产生的见解,研究机构需要在理论、实验和计算学科之间建立密切的工作关系。
此外,除DeepMind外,其他公司也需要抓住这个机会,致力于与开放数据库合作,如EMBL-EBI所维护的数据库。他们的数据,以及他们的软件需要免费共享,使下一代人工智能工具的开发成为可能。
在过去的一年里,科学家们以各种方式应用AlphaFold。一些人利用其预测来确定新的蛋白质家族(现在需要通过实验来验证),一些人正在用它来帮助寻找治疗被忽视的疾病的药物,其他人则研究了从海洋和废水样本中收集的基因序列,这里的目的是识别那些预测结构表明它们有潜力降解塑料的酶。
除了创建工具本身,DeepMind还做出了在结构生物学转型中发挥重要作用的决策。这包括它在去年7月决定将AlphaFold的基础代码开源,这样任何人都可以使用这个工具。今年早些时候,该公司更进一步,取消了阻碍该程序的一些商业用途的限制。
它还帮助建立了与EMBL-EBI共同维护的AlphaFold数据库,并为其提供资金支持。DeepMind首席执行官Demis Hassabis、他的团队和他们的外部合作者对开放科学的这种承诺值得赞扬。
上个月,该公司宣布,它正在伦敦的领先生物医学研究中心Francis Crick Institute建立一个研究实验室。这是另一个值得欢迎的举动,这将有助于建立和加强专门从事计算方法的研究人员和那些更多使用实践工具的研究人员之间所需的密切伙伴关系。
AlphaFold本身有其局限性,正如其设计者完全承认的那样。例如,它不是用来预测一个蛋白质的形状如何被致病突变所改变的。它最初也不是为了预测蛋白质在与其他蛋白质相互作用时如何改变形状--尽管研究人员在这个下一代的挑战上正在取得进展。目前还不清楚AlphaFold的预测是否能可靠地提供药物发现所需的细微细节,例如小分子可能与之结合的蛋白质区域的精确形状 (这是药物开发研究人员所渴望的信息)。
Hassabis上周说,AlphaFold的到来将"要求在思维上有相当大的改变"。这在研究人员中已经开始发生,他们正在寻找使用该工具的方法,并在其见解的基础上进行研究。
但这种思维的改变也必须涉及更多的公司和研究人员,致力于开放数据和开源软件。明天的应用,就像今天的人工智能工具一样,如果没有各种资料库中可公开访问的研究数据,软件就无法从中学习。
参考资料
https://www.nature.com/articles/d41586-022-02088-x
--------- End ---------