Derek Lowe|AI药物发现的数据守恒定律

2022-11-16 16:20:47 浏览数 (1)

2022年1月11日,著名的生物医药行业科学家、评论家Derek Lowe在国际化学领域知名新闻期刊Chemistry World发表文章The law of conservation of data,文章的主要观点是:人工智能和机器学习是有用的、强大的,但它们需要高质量的数据输入,而这些数据还不能用于药物发现。

此前Derek Lowe曾针对AI药物发现发表过许多观点(见本公众号文章Derek Lowe|关于AI药物发现的怀疑与建议)。

我们最近有很多关于人工智能(AI)和机器学习(ML)在化学(和生物学)方面的新闻。2020年末,Deepmind的AlphaFold团队因预测蛋白质结构的巨大改进而成为头条新闻,美国华盛顿大学的RosettaFold团队也迅速跟进。现在,这两个小组都宣布了在预测蛋白质-蛋白质相互作用和由此产生的复合物结构方面取得了同样令人印象深刻的进展,这些问题被许多人视为该领域中合乎逻辑的下一个(也是更难的)步骤。

如果你用你选择的时间机器将这一切传达给20世纪70年代的研究人员,他们可能会认为,在2020年代初,我们已经学到了很多关于蛋白质折叠、氢键、水分子相互作用的能量学知识,以及关于从第一性原理平衡熵和焓的能量贡献。现在,我们确实比四五十年前对这些事情了解得更多,但奇怪的是:我们对这些事情的了解,仍然不足以将其作为我们现在所拥有的那种精确蛋白质结构预测的基础。

那么,它们从哪里来?我们所看到的是模式匹配和数据库处理的胜利。到目前为止,我们已经通过X射线衍射、核磁共振以及(最近)通过低温电子显微镜积累了大量的蛋白质结构的实验数据。这使我们有机会(在一些巧妙的、完善的算法的帮助下)挑选出各种结构motifs及其相关的氨基酸序列,这使蛋白质结构空间的很大一部分可以通过与我们已经确定的结构进行类比来填补。

这一切的一个关键因素是那一大堆高质量的数据。用来整理这些数据的技术是非常棒的。但是,如果没有足够的关于蛋白质结构的基本事实,任何算法都无法在这个问题上获得足够的牵引力。这说明了一个关于信息的重要事实,这个事实可能看起来微不足道,但却一直在变得越来越有趣:你无法从数据中获得比开始时更多的东西。这可以参照香农熵和算法可压缩性等东西更正式地说明,但总的来说,有一个类似于能量和物质的守恒定律在发挥作用。

经典的"垃圾进,垃圾出"的计算定律在机器学习中广泛适用。

蛋白质数据集很大,很丰富,也很详细,人们可以从中提取关于蛋白质结构的有用预测,而这些预测以前甚至从未被想到过。因此,如果你想看看下一个惊人的人工智能成果可能来自哪里,那么请寻找其他包含足够黄金的数据集,以便进行有利可图的开采。机器学习技术并不创造黄金;它们发现它,并找出其中最丰富的接缝是如何连接的。正如他们所说的,建立这样的数据库并非易事。

您需要确定的数据,涵盖与你的问题相关的大量空间,并以这样的方式格式化,并以这样一种方式来给软件提供最快速和最有用的方法来寻找所有这些隐藏的联系。如果没有干净的、结构良好的数据,你和你的算法就会有一个非常不愉快的时间。经典的"垃圾进,垃圾出"的计算法则从未像在机器学习中那样适用。

对于蛋白质来说,你可能认为强大的下一步将是预测新的药物靶点和疾病途径。但这将是一项比结构预测更难的工作(直到现在,结构预测当然已经够难了)。根本就没有一个经过精心整理的数据集,没有该工作所需的那种知识,而我们所拥有的知识也充满了空白。让事情变得更复杂的是,其中一些差距是显而易见的,但有些差距是看不见的。只有当我们对细胞生物学和整个生物体有了更多的了解,这些差距才会变得清晰。

而你知道谁会发现这些事情吗?不是我们的人工智能和机器学习系统,尽管我确信它们会尽可能地帮助。不,这将是我们。就像以前一样。

参考资料

https://www.chemistryworld.com/opinion/the-law-of-conservation-of-data/4014927.article

--------- End ---------

0 人点赞