对于蛋白质谱的数据,之前介绍过两个储存蛋白质谱公共数据的平台: [[iProX_ProteomeXchange-蛋白质谱原始数据检索数据库]]。在这两个平台当中,储存的主要是质谱的原始数据。如果想要使用里面的公共数据的话,就要对其进行重新分析。所以今天就给大家介绍一个用来发分析质谱数据的平台:ProVision: https://provision.shinyapps.io/provision/
数据类型
在介绍这个工具使用之前,需要明白的是,我们在公共测序平台下载的原始数据首先需要使用MaxQuant软件对原始数据进行定量转换。转换之后会有一个proteinGroups 的文件。ProVision 是基于这个文件来进行分析的。
MaxQuant是一个免费的界面化的质谱定量工具,操作还是很简单的。 proteinGroups 文件类似于 RNA-seq 当中的 Count 文件。里面包括了检测到的蛋白名称以及蛋白在各个样本当中的表达量。
ProVision 主要操作包括:1) 数据上传;2) 质量控制;3)差异分析;4)结果可视化。
数据预处理
数据上传
在数据上传部分,可以根据左边的选项一步一步操作。首先是上传 proteinGroups 文件。在上传的时候,可以选择把哪一类型的数据当作蛋白表达量数据进行分析。默认的是LFQ intensity 这个数据量。上传完之后。在界面右边可以看到上传的数据当中包括多少个蛋白。以及蛋白 ID 是什么。
数据转换
数据上传完之后。可以对上传的数据进行修改。比如,删除不想要分析的样本,独立肽段的选择以及对数据进行 Log2 的正态转换。
关于独立肽段的选择:可以理解为这个值越大代表检测的蛋白越特异
在选择好筛选标准之后,点击: "Start filtering"就可以进行数据处理了。处理完之后,可以看到之前检测到的蛋白总数变少了。
样本分组
对数据处理完之后,就需要对样本进行分组了。这里的样本分组需要进行手动的修改不可以上传样本分组的文件。点击“start“会显示具体的样本。然后可以对其进行手动命名。主要修改的是第二列的注释。这个主要是用来进行后续的差异分析。
蛋白筛选
质谱检测的蛋白表达量,在经过 Log 转换之后会出现缺失值的情况。这种缺失值出现主要是由于:
- 仪器精准问题:这样的可以考虑在之前定义的相同类型的样本(比如在 case 组当中)观察蛋白的检测情况。如果这个蛋白在两个相同类型样本当中有表达就可以说明这个蛋白是存在表达。
- 实验条件问题:这样的可以理解为是由于实验条件不同导致的蛋白表达变化。可以选择蛋白在至少一个分组当中有表达或者在两组之中都有表达。
经过筛选,发现又有一些蛋白被去除掉了。
缺失值填补
在经过上面的筛选之后,还是会保留一些存在缺失值的蛋白。这个时候就需要对缺失值进行填补。这里的填补是基于每个样本在不同分组的表达来进行计算的。
经过以上的步骤。就把数据处理完了。剩下的就可以对数据进行分析了
质量控制
在进行差异分析之前,可以对每个样本的数据进行质量评估。这里主要包括样本的 QQ 图;不同样本的相关散点图;样本之间的相关分析以及 PCA 图
差异分析
进行样本评估之后,就可以对不同分组进行差异表达分析了。我们可以选择差异表达的分组,差异蛋白的 Cutoff 值以及 P 值矫正的方法。经过分析可以看到有多少个蛋白有差异。以及具体的差异表格结果
差异表达分析是基于 limma 算法来进行分析的。
除了可以看到差异分析的表格。还可以绘制差异蛋白的热图以及差异分析的火山图
最后还可以对差异的蛋白进行功能富集分析以及蛋白相互作用分析。其中富集分析是基于 [[8.WebSestalt-富集分析软件]] 来进行的。而蛋白相互作用分析则是基于 [[STRING-蛋白相互作用数据库使用]] 来进行的
由于分组不好的问题。没有得到相关的结果。所以就没办法上图了。
总的来说
以上就是 ProVision 这个质谱分析软件的主要使用过程了。于分析而言,在 ProVision 当中基本的数据处理和分析结果都可以下载到相关的文件。
最后强烈建议了解一下 ProVsion 当中的分析操作教程。里面把基本的质谱分析需要处理过程讲的还是很明白的。例如在质量控制当中对各个图形的讲解。