作者丨杨文明,殷乐,邹佳丽
编辑丨陈彩娴
2022年8月26日,第十六届全国知识图谱与语义计算大会(以下简称“CCKS”)在秦皇岛成功召开。
CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。
根据官方公布,今年的评测任务共14个,涵盖5个主题,涉及金融、教育、军事、化学等领域;总计5362支队伍、吸引近2.3万人参赛。
在今年的 CCKS 比赛中,来自剂泰医药(METiS Pharmaceuticals )的AI团队成员杨文明、殷乐、邹佳丽在众多参赛队伍中脱颖而出,以绝对优势斩获了“化学知识图谱构建和应用”的评测任务冠军。
剂泰医药AI团队在“化学元素知识图谱构建和应用”赛题中的解决方案是知识图谱突破新场景的一个典型,下面是内容介绍:
1
赛题背景
化合物的性质预测的主要目的在于及时发现理化性质不达标的化合物,以降低候选化合物进入临床实验失败的风险,提升药物研发的成功率。
传统的化合物性质预测分析一般采取实验方式,成本高昂且耗时长。
很多研究工作都证明了机器学习技术,特别是深度学习在化合物性质预测方面的巨大潜力,这些工作使用序列(SMILES表达式)或是图(原子为节点,化学键为边)来表示化合物,用序列建模或者图神经网络(GNN)去预测化合物的属性,以辅助进行药物研发,提升效率,降低成本。
但是,这些方法往往只考虑了化合物分子的结构信息,而忽略了其中蕴含的化学领域知识。
因此举办方以化学元素周期表为核心构建了化学元素知识图谱,并于此针对知识图谱构建的关键技术及其核心应用提出评测任务。
2
任务介绍
本任务围绕化学元素知识图谱的构建及化合物属性预测所展开。
评测从化合物SMILES表示和初始的简单知识图谱开始,根据需要构建和扩充化学元素知识图谱,并基于该知识图谱进行化合物属性预测。
评测本身不限制各参赛队伍使用的模型、算法和技术,但设计模型过程中必须使用该化学元素知识图谱。
参赛者可以利用各种外部知识库扩充该化学元素知识图谱(例如引入官能团知识、wikipedia中的文本、图像信息等),可以利用各种序列/图算法模型、预训练手段等处理化合物分子,并进行化合物属性预测。
输入输出
输入
triples.txt: 知识图谱的三元组,定义了实体(entities)、实体间的关系(relation)。
compound.csv: 化合物分子的SMILES表示。
输出
newkg: 扩充后的任意形式(如:jsonld)表示的知识图谱。(选做)
property.json: 化合物分子的属性。分子属性预测任务包括二分类任务和回归任务,二分类任务需返回预测的标签,回归任务需返回预测的具体数值。
输入样例
compound.csv:
Cc1cccc(N2CCN(C(=O)C34CC5CC(CC(C5)C3)C4)CC2)c1C
Cn1ccnc1SCC(=O)Nc1ccc(Oc2ccccc2)cc1
COc1cc2c(cc1NC(=O)CN1C(=O)NC3(CCc4ccccc43)C1=O)oc1ccccc12
输出样例:
property.json
{
"task1": [0, 1, 1, ……],
"task2": [0, 1, 1, ……],
"task3": [-0.29, -5.82, 0.15, ……],
……
}
3
知识图谱描述
在化学领域中,分子由若干个相同或不同的原子组成,而元素为具有相同核电荷数(即核内质子数)的同一类原子的总称。因此,本次测评希望将化学元素周期表转化为知识图谱,建模元素之间的微观联系,进而帮助分子的表示学习。
本次测评从元素周期表中提取了所有化学元素及其属性。每个元素包含超过15种属性,包括金属性、周期性、状态、质量、电负性、电子亲和性、熔点、沸点、电离能、半径、硬度、模量、密度、导率、热能和丰度。如下图展示,化学元素知识图谱描述了元素之间的微观联系及元素与属性之间存在的特定关系。
由于每个元素都有一些连续型属性,以数字的形态呈现(如半径、熔沸点等),此处我们对连续型属性进行了离散化,即对不同的数值进行分组,以建立不同元素之间的联系。
4
评价指标
二分类任务,采用ROC-AUC来评估预测效果。相关定义如下:
ROC(Receiver Operating Characteristic)曲线,又称接收者操作特征曲线。该曲线最早应用于雷达信号检测领域,用于区分信号与噪声。后来人们将其用于评价模型的预测能力,ROC曲线是基于混淆矩阵得出的。
一个二分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的FPR(伪阳性率)和TPR(真阳性率),将同一模型每个阈值的(FPR, TPR)坐标都画在 ROC 空间里,就成为特定模型的ROC曲线。
ROC曲线横坐标为FPR,纵坐标为TPR。AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
5
任务难点
本次评测任务给定训练集为带有0,1标签的数据,化学分子以SMILES表示,训练集中正负样本极度不平衡,正负样本比例大约为1:30。
其次,化学分子的表示具有多种方式,如SMILES,分子描述符,分子指纹或图结构等,但目前在实际的应用中每种表示都存在一些缺陷,寻找到更加合理的分子表征也是本次评测任务的难点之一。
6
数据处理/分子表征
在本次评测任务中,剂泰医药团队利用以下手段处理化合物分子:
1)图数据预训练技术,将分子中的原子看成节点,化学键看成边,化学分子就是一个图数据;
2)分子描述符;
3)药效团指纹。
在预训练模型中关注了化学分子的2D信息,3D信息,官能团等,基于上面不同的方法生成向量特征表征分子。
其次,通过将高维稀疏向量(如药效团指纹),使用Sparse AutoEncoder降维,低维稠密向量不变,将这些不同的特征向量融合,生成最终的向量表征。
最后,把特征向量输入到集成模型进行预测,实现了化合物性质的精准预测。
6.1 分子表征生成
预训练模型开源代码库地址:
KCLGNN:https://github.com/ZJUFangyin/KCL;
GeoGNN:https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/pretrained_compound/ChemRL/GEM;
Pretrain-gnns:https://github.com/snap-stanford/pretrain-gnns;
MGSSL:https://github.com/zaixizhang/MGSSL
6.2 Sparse AutoEncoder降维模型
药效团指纹(Gobbi)的融入可以提高最终的评测指标,但药效团指纹是高维稀疏向量,主要由0或1构成。
对于这类维度过高的特征,采用AutoEncoder降维,同时在降维的过程中也充分利用了标签信息,模型结构见下图。处理好的分子表征,进行拼接融合,然后输入模型训练。
6.3 融合拼接形成两个特征表示化学分子
7
模型
上图描述了整个模型的集成方案,使用scikit-learn,在linux上实现和运行。
8
结果
对应第7章节votingClassif模型部分,在测试集的结果
LightGBM-1(n_estimato=1200)的模型在测试集的结果
根据整各方案,最终在测试集的结果见下图:
此次夺冠,证明了剂泰医药在AI制药领域的算法能力和模型搭建水平上取得了极大的进步。
9
应用场景
该技术方案可以在AI制药的很多领域得到应用,如药物ADMET属性预测,化合物的理化性质预测,化合物成药性的预测,药物透血脑屏障的预测等。
经过AI平台筛选(可以称为干实验),将排名靠前的化合物进行湿实验验证,得到最终候选化合物。
通过干湿实验结合,形成闭环,与传统单一的湿实验相比具有比较多的优势:可以减少实验次数,降低成本,加速化合物的筛选;排除人为经验干扰;扩大化合物筛选的空间等。
该方案中技术和方法在剂型配方筛选上也有较多的应用,药物剂型是由多种不同的化学成分构成,在使用机器学习或深度学习筛选最佳配方的过程中,一个好的化合物分子表征能够预测到更好的配方比例。
该技术方案已经被剂泰医药成功应用到核心技术平台 “AiLNP”和“AiTEM”中,高效支撑脂质体LNP预测和固分体体系预测两大技术模块,赋能“AI 制药”,缩短研发时间,提高研发效率,实现了更有效的创新递送材料设计和更具优势的制剂配方系统。
在未来,剂泰医药将继续凭借自身领先的科研和创新能力,在AI制药的基础研究和药物研发领域继续发力,利用AI技术探索生物和制药的未知领域,满足患者临床需求。
具体方法细节可以参照CCKS2022后续开放的评测论文“Compound property prediction based on multiple different molecular features and ensemble learning”
- 网址:http://sigkg.cn/ccks2022/?page_id=22
关于剂泰医药(METiS Pharmaceuticals)
剂泰医药是一家生物技术公司,旨在通过将药物递送、药物发现与人工智能、机器学习和量子模拟相结合,解决未被满足的临床需求,在广大疾病领域推动最佳疗法。
核心团队由美国工程院院士和多位MIT科学家领衔。本次参赛团队成员中的杨文明、邹佳丽也曾在CCKS2020医疗命名实体识别的评测任务中获得第三名的好成绩。
更多内容,点击下方关注:
扫码添加 AI 科技评论 微信号,投稿&进群: