ICLR 2022 | CLOOME:一个基于多模态对比学习的分子表征工具

2022-06-10 15:38:27 浏览数 (1)

编译 | 王勤玉 审稿 | 赖乐珊

今天给大家介绍的是约翰·开普勒林茨大学Ana Sanchez-Fernandez 团队最新发表在ICLR 2022上的文章——“Contrastive learning of image- and structure-based representations in drug discovery”。此前,对比学习方法CLIP和CLOOB就已经证明,当在多个模态数据上进行训练时,学习到的表征可以高度迁移到大量不同的任务中去。在药物发现领域,分子图像和化学结构是类似的多模态数据集,目前还没有在这两者上做对比学习的工作,这种方法在标签成本高昂的药物发现领域极具研究价值。因此该工作从易获取的分子显微图像和结构入手,提出一种基于CLOOB(Contrastive Leave One Out Boost)的新的对比学习方法——CLOOME(Contrastive Leave One Out Boost for Molecule Encoders)。通过对分子活性预测任务进行线性探测,证明了该方法可迁移表征的能力,此外,这种表征同样可以用于生物异构的替代任务。

方法

该工作从分子的显微图像和化学结构数据对中对比学习分子的表征,以获得高度可迁移的分子编码器(如图1所示)。CLOOME相比于传统分子编码器或手工提取分子特征,其最大的创新在于能在没有活性分子数据的输入或者人工先验知识的情况下优化分子的表征。

图 1. CLOOME示意图。

然后,将InfoLOOB损失作为目标函数:

显微镜图像编码器 显微图像与自然图像存在着些许差异,比如染色会影响图像通道数,本文所有实验都采用5个输入通道的ResNet-50作为编码器,并将显微镜图像缩小到320*320。

分子结构编码器 CLOOME使用基于描述符的全连接网络。此外,经过了适当池化操作的图神经网络、消息传递神经网络或基于序列的神经网络都能作为结构编码器。

结果

活性预测和下游任务

下游的活性预测任务的预测性能如表1所示。CLOOME的平均AUC为0.714,这表明学习到的表征确实可以迁移。CLOOME甚至优于完全监督的方法,如M-CNN和SC-CNN。

表 1. 学习表征的线性评估与全监督方法的比较。需要注意的是,尽管CLOOME编码器没有访问任何活性数据,它产生的特征却仍然可以预测活性数据,(通过所提线性探测模块完成)。CLOOME达到了几种监督方法的性能,这表明学习到的表征的可转移性。

CLOOME对分子结构正确检索的能力

在这个实验中,评估了CLOOME在给定显微图片检索出其分子结构的能力。值得注意的是,这对专家而言也是一项极具挑战性的任务,即给定细胞的显微图像,匹配出与之最相似的分子结构。这在生物异构的替代任务中至关重要。这种基于图像的检索任务也可以理解为生物等构体替换任务,所以还评估了CLOOME在给定显微图像的情况下正确排列匹配分子结构的能力。排序靠前的分子结构极可能是潜在的生物异构体。表2 给出了对结构检索能力的量化结果。图2给出了检索任务的结果示例。

表 2. 生物异构替代任务的结果。给定分子扰动的显微图片,从一组候选分子中选择正确的分子。这里根据相似性给出了前1、前五、前10的准确率。

图 2. 检索任务结果示例。给定一张显微图片,CLOOME能从数个分子结构中检索到与显微图片对应的分子结构(图中蓝色框为匹配到的分子结构)。CLOOME可用于提取可对处理过的细胞产生类似生物效应的分子,即生物异构体。

总结

该工作引入了一种分子多模态对比学习方法CLOOME﹐学习基于显微镜图像和化学结构的分子表征。在最大的可用数据集上﹐证明CLOOME能够学习可迁移的分子表征。这为使用所学的表征进行新数据的活性或特性预测以及其他例如寻找分子的生物替代物等任务提供了可能。但该方法也存在其局限性:该工作的训练网络仅限于特定类型的显微图片;当表征的维度过高时,线性探测存在过拟合的风险。除了以上局限性, CLOOME在学习分子表征上的出色表现为药物发现的前进又贡献出一份力量。

参考资料

Sanchez-Fernandez, A., Rumetshofer, E., Hochreiter, S. and Klambauer, G., 2022, March. Contrastive learning of image-and structure-based representations in drug discovery. In ICLR2022 Machine Learning for Drug Discovery.

0 人点赞