作者 | 汪逢生 校对 | 李仲深
今天要介绍的是南方医科大学徐莹莹课题组在BMC Bioinformatics发表的文章”Automated classification of protein subcellular localization in immunohistochemistry images to reveal biomarkers in colon cancer”。作者在这篇文章中提出了将特征工程和深度卷积神经网络相结合的方式构建了蛋白质亚细胞定位的自动分类器,以此来识别蛋白质亚细胞位置变化。相较于统计机器学习模型的好坏取决于预定义特征的好坏,作者创新性地整幅IHC图像划分小图像块处理,引入了深层特征并级联预定义特征,以此来训练支持向量机(SVM)模型。训练的模型可以基于蛋白质亚细胞易位有效检测生物标志物,并在识别蛋白质位置表现更为出色。该研究在注释未知的蛋白质亚细胞位置并发现新的潜在位置生物标志物有着重要科学意义。
一、研究背景
在生物学过程中,蛋白质必须出现在细胞正确的细胞器中以传输信号和物质,催化代谢反应或为细胞提供结构支持。定位错误可能会影响这些功能并导致疾病,包括癌症。结肠癌作为癌症类型,已发现与蛋白质的许多亚细胞易位有关。因此,癌症的早期发现不仅取决于生物标志物蛋白的表达水平,而且还取决于正常细胞与恶性细胞之间蛋白质亚细胞位置的变化。如今,由于蛋白质数据量巨大且迅速增加,因此自动亚细胞定位预测对于注释新蛋白质和大规模检测蛋白质易位非常重要。
早期的工作中,蛋白质亚细胞定位预测构建的是统计机器学习模型,大多数都使用特征工程来提取预定义特征以训练分类器,模型的质量在很大程度上取决于特征的质量。即便在最近的研究中,引用深度学习中的卷积神经网络在定位任务上取得了良好的成果,但实验大多使用荧光图像并使用整幅图像作为输入。为了解决这个问题,作者选择了IHC图像,经过实验找到合适的高蛋白表达的图像块作为模型输入,经预训练卷积网络和特征工程处理得到更加高质量的特征,以此来训练模型,最终取得了令人满意的结果。
二、模型与方法
2.1 数据集
通过在HPA公共在线数据库中跨健康和癌变组织的大约17,000种人类蛋白质的数百万张IHC图像,选择了满足染色注释为高或中等、强度标注为强或中等和提交的数量被标注为大于25%的结肠组织中蛋白质的IHC图像。根据HPA中的注释,作者将这些图像分为三个亚细胞位置类别,(i)核,(ii)细胞质和质膜,(iii)核,细胞质和质膜。
三种亚细胞定位类别中蛋白质图像块的示例
累计收集了三个数据集,即建模数据集,文献生物标志物数据集和HPA生物标志物数据集,其中第一个用于建立分类器模型,第二个和第三个用于验证模型在筛选位置生物标志物上的性能。
本研究中使用的三个数据集的摘要
2.2 程序实现
模型的创建流程主要包括两个阶段,建立分类模型和区分位置生物标记。在第一阶段,通过将特征工程和深度学习方法相结合,建立了基于图像的蛋白质亚细胞定位模型。特征工程模型是通过四个步骤构建的,即将IHC图像分解成蛋白质和DNA通道,选择合适的图像块,提取和选择特征以及训练支持向量机模型。同时,选择的图像块是输入到深层的CNN网络中微调模型,并提取特征图。然后,通过串联从两个步骤得到的特征并训练最终的SVM模型,构建了组合模型。在第二阶段,将该模型应用于生物标志物数据集,采用独立样本t检验测试其是否可以识别蛋白质亚细胞位置变化。
实验框架a. 使用IHC图像的训练分类器模型
b.使用整合模型识别位置生物标志物蛋白
2.3 性能评估方法
实验使用了四种评估方法,准确率(Accuracy)、召回率(Recall)、精确率(Precision)和F1分数(F1-score)。
三、实验结果
为了验证上述提出的思路正确,作者在特征工程上使用三种不同的方式进行比较。
3.1 使用整个图像的结果
对整个IHC图像进行线性波谱分离(linear spectral unmixing ,LIN)和非负矩阵分解(non-negative matrix factorization,NMF)提取全局亚细胞定位特征(subcellular location features,SLF)和局部二值模式(local binary pattern,LBP)特征训练模型。
3.2 使用兴趣块的结果
作者选择具有高蛋白表达的兴趣块来代表亚细胞模式。通过实验找到了图像中合适的色块数量和色块大小,在此基础上提取SLF和LBP特征训练模型。
3.3 使用深度卷积神经网络模型的结果
对GoogLeNet , ResNet18 , ResNet50 , ResNet101 , Inception v3 ,DenseNet201 和 GapNetPL七种预训练网络,作者比较了两种方法,使用提取到的特征构建SVM模型和采用图像块微调神经网络得到神经网络模型。
实验表明当使用每蛋白质划分方法时,将SLF,LBP和深层CNN功能串联起来可以实现最佳性能。
SVM模型和CNN模型的分类结果
为了构建具有较高分类和泛化性能的最终分类器,作者将SLF,LBP特征和七个网络的特征图连接在一起,通过逐步判别分析选择了97个信息量特征,然后训练最终的SVM模型。组合模型的性能优于上述所有单个模型。作者将其性能与基于IHC图像的蛋白质亚细胞定位的四个已发布模型进行了比较,方法在所有指标上均优于其他方法。
作者的方法与四种现有蛋白质位置预测工具的比较
四、总结
通过实验表明使用图像块并整合常规特征和深层特征可有效识别蛋白质亚细胞模式,与使用完整的IHC图像相比,具有适当参数的图像块可以实现更好的性能,并且将传统的机器学习功能与神经网络功能相结合有利于于提高模型性能。此外,分类器在生物标志物数据集上的应用表明该方法在定位生物标志物的检测中可以达到令人满意的表现。
代码
https://github.com/Xue-zhen-zhen/Protein-subcellular-location
参考文献
Xue,Z., Wu, Y., Gao, Q. et al. Automated classification of protein subcellularlocalization in immunohistochemistry images to reveal biomarkers in coloncancer. BMC Bioinformatics 21, 398 (2020).
https://doi.org/10.1186/s12859-020-03731-y