今天给大家介绍BenevolentAI团队2020年2月5日发表在Journal of Chemical Information and Modeling上的文章:DeeplyTough: Learning Structural Comparison of Protein Binding Sites. 这篇文章将3D CNN 与距离度量学习算法相结合,构建了一个DeeplyTough网络,用于蛋白质结合位点的结构比较学习。
小分子药物发现中的蛋白质
蛋白质在体内发挥作用,并负责生物学功能。在药物开发中,经常寻求改变特定蛋白质的功能来帮助人体抵抗疾病。可以将专注于用小分子药物调节特定蛋白质的药物发现工作框架化为基于靶标的药物发现。蛋白质的生物学功能取决于其结构和序列。影响蛋白质功能的最常见方法是干扰能够容纳小分子的蛋白质-配体结合位点或口袋。
靶标蛋白质空间的相似性
找出分子可以结合的蛋白质是药物研发的核心任务。可能知道一个分子结合一种蛋白质,但怀疑其他分子也相互作用,这可能会导致药物毒性或多药理学。相反,可能不知道会结合感兴趣的蛋白质的分子,并希望从虚拟筛选方案中获得会结合相似蛋白质结合位点的分子中汲取灵感。
不相关的蛋白质可能结合相似的分子。
传统的口袋配对方法
评估3D蛋白质口袋之间相似性的传统方法通常基于口袋的手动创建表示法和传统形状匹配算法的组合。假设一种用于口袋匹配的机器学习方法将能够直接从数据中学习口袋表示,同时了解口袋的哪些特征对于共享分子的结合特别重要。通过引入基于机器学习的解决方案来解决口袋匹配问题,希望消除人为偏见,并为药物开发量身定制口袋表示。
DeeplyTough:一种3D口袋匹配的机器学习方法
BenevolentAI的最新研究通过计算机视觉的来查看蛋白质口袋的匹配情况,将3D蛋白质结构视为3D图像。卷积神经网络(CNN)在许多领域都被证明是有效的,并且能够构建来自低级像素的强大输入表示-3D像素除外,即像素称为体素。与图像相反,图像中的每个像素都由红色,绿色和蓝色(rgb)的强度表示,研究者用分子特性(例如疏水性或原子形成氢键的能力)代替了附加的原色。
蛋白质结构以3D图像为特征,其中与红色,绿色和蓝色强度相关的像素被与可能的分子间相互作用描述相关的3D体素代替。
Metric Learning
距离度量学习领域旨在自动确定项目之间的距离,并且可以在给定标记示例数据集的情况下以机器学习方式进行训练。案例中,TOUGH-M1数据集包含正对(两个蛋白质口袋,已显示出结合相似分子)和负对(两个蛋白质口袋,均未显示出共享分子结合的证据)的示例。研究者对DeeplyTough进行训练以鼓励负对的分离,并在欧氏空间中接近正对。
研究者使用三个可公开获得的数据集对他们的方法进行了全面的基准测试,并证明了用于3D口袋匹配的度量学习方法可以在运行时更快的时间内显示出与现有方法竞争的性能。该工作代表了一种概念验证,表明度量学习能够匹配可能直接从3D蛋白质结构数据中结合相似配体的蛋白质口袋。蛋白质口袋匹配的方法是现代药物发现工具包中的一种工具。引入了DeeplyTough,这种范式的转变减少了与以前方法相关的人为偏见,并降低了运行时时间成本,使研究者能够考虑更大的数据集。DeeplyTough将提高有效搜索新药的能力。
参考资料
Simonovsky M, Meyers J. DeeplyTough: Learning Structural Comparison of Protein Binding Sites[J]. BioRxiv, 2019: 600304.
https://benevolent.ai/deeply-tough?utm_medium=banner&utm_source=blog&utm_campaign=deeplytough
文 / 编辑:王建民