人工智能已经通过预测蛋白质的三维结构彻底改变了蛋白质的研究。现在,人工智能开始对更小的分子发挥威力--药物、除草剂和催化剂,它们是医药、农业和工业化学的核心。
2024年8月1日,Larsen等人在Science发表研究PhAI: A deep-learning approach to solve the crystallographic phase problem。
Larsen等人利用经过数百万人工晶体结构及其相应合成衍射数据训练的深度学习神经网络,开发出了一种具有极高预测能力的方法,可以绘制出精确的电子密度图。
这种新的人工智能工具,即使在数据不完整的情况下也能确定小分子的结构。该工具可以破译大量数据中的模式,而这些数据以前曾被认为不够好而被丢弃。这种方法可以让化学家们更轻松地研究对现代生活至关重要的各种化合物。
杜伦大学小分子晶体学家Horst Puschmann说:“这改变了游戏规则。”
人工智能最近在预测蛋白质结构方面取得的进展主要归功于大量训练数据集的可用性。研究人员知道编码蛋白质的基因的DNA序列,也知道其中许多蛋白质的精确三维结构。有了这两个数据集,科学家们就可以训练人工智能,让它仅凭DNA序列就能准确预测新蛋白质的未知三维形状。
人工智能可以用通常所需数据的一小部分来确定阿司匹林等小分子的3D结构
但哥本哈根大学的小分子晶体学家Anders Madsen说:“小分子面临的挑战更大。虽然研究人员可以仅根据化学式计算出基本的三维结构,但往往无法计算出精确的结构,因为许多微小的变化都同样可信。”
为了确定实际结构,研究人员通常会求助于X射线晶体学。首先,他们将一批纯化的小分子转化为固态晶体,在晶体中,所有copies以重复的模式排列,就像杂货铺中堆放的水果一样。然后,科学家向晶体发射一束X射线。分子原子周围的电子会使X射线偏转,从而产生由探测器记录的“衍射图样”。通过分析这些图案,研究人员可以绘制出电子分组图,并计算出原子的排列。
要获得良好的结构,还需要了解轰击X射线的“相位”,这是X射线波长和穿过晶体路径的属性。虽然探测器可以测量X射线的强度,即每个光斑中的光子数量,但却无法测量其相位。研究人员必须进行有根据的猜测,以测试最可能的相位值,并确认最符合数据的相位值。但是,科学家们往往会使用劣质晶体,这些晶体会产生模糊的衍射图样,导致无法确定相位。剑桥大学的小分子晶体学家Andrew Bond说:“放进去的是垃圾,取出来的也是垃圾。”
然而,人工智能往往能从模糊数据中看到研究人员看不到的模式。Madsen和他的同事们开始研究这里的情况是否如此。他们通过逆向思维,使用计算机模型生成了数百万个小分子的虚拟结构,并计算出劣质晶体会产生的模糊衍射图样。人工智能从随机相位值开始,不断迭代,直到找到与模糊强度数据相结合的相位,产生正确的结构。
此时,研究人员已经掌握了数百万个假设分子的输入(强度和相位信息)和输出(三维结构)。他们利用这些信息训练人工智能,寻找连接强度数据和相位信息的模式,从而得出正确的结构。
接下来,科学家们需要看看经过训练的人工智能能否预测出它以前从未见过的真实分子的结构。他们发现,在他们测试的近2400种小分子中,人工智能可以准确地解出每种分子的已知结构,所需的数据只有传统X射线方法的10%。Puschmann说:“在某种程度上,这就像魔法一样。”
目前,这项技术只适用于含有大约50个原子的分子。Madsen说:“希望继续改进人工智能,希望它能适用于更大的分子,从而使其成为一种用途更广的工具。”
Bond预计,类似的人工智能还可以用其他技术的数据集进行训练,比如电子束衍射技术,这种技术不需要制备晶体。但现在,他说:“这是非常好的第一步。”
参考资料:
https://www.science.org/content/article/magic-ai-determines-structure-small-molecule-drugs-and-catalysts-even-fuzzy-data