编译| 王玉杰 审稿| 陶雯
冷冻电镜、X射线晶体学等实验方法使得可用的生物分子结构数量大大增加,但RNA分子作为生物医药的未来,目前仍难以对其复杂的三维结构进行实验确定或计算预测。来自斯坦福大学的Townshend等人于Science发表论文“Geometric deep learning of RNA structure”,提出了一种新的深度学习方法ARES——仅基于分子中每个原子的3D位置(坐标)和化学元素类型进行学习,预测RNA分子的准确结构。该方法仅从少量数据中学习也可成功,可推广到结构生物学、化学、材料科学等众多领域。
1
ARES简介
目前人类对RNA结构的了解远不如对蛋白质,尽管经过了几十年的努力,但是可用的RNA结构仍然很少,预测RNA结构远比预测蛋白质结构困难,并且设计一个能可靠区分准确结构模型和不准确结构模型的评分函数(scoring function)也十分困难。
作者提出的ARES(Atomic Rotationally Equivariant Scorer)(Fig.1)是一个对计算得到的RNA结构模型进行评分的评分器,本质上是一个深度神经网络,由多个处理层组成,只使用原子坐标和元素类型作为输入,可以从未知真实结构预测RNA结构模型的均方根误差(RMSD),在实验数据非常少时也能进行有效学习。
ARES网络的初始层用于识别结构基序(structural motifs)——由网络在训练中自动习得(非预设),然后每一层网络根据周围原子的几何排列以及前一层得到的特征,为每个原子计算多个特征。模型的层的设计基于最新开发的机器学习技术,如tensor field networks和PAUL方法,可以捕获输入的旋转和平移的对称性。
特别的,ARES不事先假设结构模型的哪些特征与准确度相关,其背后的方法也并不只针对RNA,因此适用于任何类型的分子系统。
2
实验
(1)训练
作者仅使用1994~2006年间已确定结构的18个RNA分子来训练网络。对每个RNA,不使用任何已知结构,而是用Rosetta FARFAR2采样法生成1000个RNA结构模型,然后优化ARES参数,使其输出尽可能与来自相应结构的每个模型的RMSD匹配。
(2)基于模板(先验知识)的准确结构识别
为了评估ARES识别未知RNA的准确结构模型的能力,作者先使用了benchmark 1——包含RNA-Puzzles结构预测挑战中的所有已发布确定结构的RNA。作者使用FARFAR2对每个RNA生成了1500多个结构模型(已确保接近原结构,即在确定结构的2-Å RMSD内)。作者使用训练好的ARES网络为上述每个结构模型生成一个分数(RMSD),与Rosetta(2020版)、RASP和3dRNAscore的评分进行对比。ARES评分在benchmark 1中的表现明显优于其他三个评分方法(Fig.2A-C),图中每个红点表示一个RNA,ARES评分的最佳结构模型通常比由其他评分方法评分的最佳模型更准确。
(3)没有先验知识的困难建模场景
现有的生成候选结构模型的方法常常无法在合理的计算时间内完成,于是作者使用了不包含near-native结构模型的benchmark 2——作者摒弃了以已知分子结构作为模板的做法,模拟没有先验知识的困难建模场景。于是,作者选择了16个结构复杂多样的、与训练数据和benchmark 1显著不同的RNA,使用ARES以及此前广泛使用的其他6个评分方法进行评分,ARES仍优于其他评分方法(Fig.2D)。
(4)Blind预测(RNA-Puzzles)
作者首先使用FARFAR2采样协议生成候选结构模型(没有模板信息或模板信息有限),然后使用ARES在其中进行选择。与其他评分方法相比,ARES仍表现最优(Fig.3)。
(5)ARES学到了什么
通过分析,作者发现ARES自发地发现了RNA结构的某些关键特征,如实现最优的碱基配对的螺旋宽度、反映了每个结构中氢键和Watson-Crick碱基配对的程度的高级特征等。此外,作者还发现ARES能够准确识别复杂的三级结构元素,包括在训练数据集中未表示的元素。
3
总结
作者提出的ARES完全从原子结构中学习,忽略相关RNA或蛋白质的序列等其他信息,也不假设什么结构特征可能重要,在比训练集更大更复杂的多个benchmark上均表现优异,虽然ARES仍然依赖以前开发的抽样方法来生成候选RNA结构模型,但其在数据匮乏的其它涉及3D分子结构的领域极具潜力。
参考资料
(1) Townshend, R. J. L., et al. (2021) Geometric deep learning of RNA structure. Science.
doi.org/10.1126/science.abe5650.
(2) ARES model:http://drorlab.stanford.edu/ares.html