文献精读-ICITOOLS及SPmarker算法定义markergene

2022-07-16 17:14:40 浏览数 (1)

这两篇文章都是针对于选用机器学习的算法来筛选marker基因,虽然前几天用了icitool对我的数据进行了分析,但是发现结果不太好,目前是准备调参进行后续的尝试,同时又发现了一篇文章写的新的机器学习的方法,因此对两篇文章的内容进行大致的整理。

文章题目:Quantification of cell identity from single-cell gene expression profiles

doi: 10.1186/s13059-015-0580-x

图片.png图片.png

背景及结果

单细胞的数据量很大,同时假阳性很高,受到了很多背景噪音的影响,但是这个组学可以很好的发现研究中的发育状态的瞬时细胞,是其他组学不能做到的。因此选用细胞身份指数定义是有必要的。

作者选用植物(拟南芥的根尖细胞)及人类的胶质母细胞瘤的数据集进行分类,验证这个分类方法的可靠性。

单细胞组学能够检测罕见细胞在早期发育过程中的细胞状态,如分化和在细胞重编程中从随机状态到定型状态的转变。

生物噪声使分类更加复杂,生物噪声来自随机的、突发性转录事件,以及单细胞测序数据固有的实质性技术噪声。这种技术噪音源于单细胞样本中存在的低数量的mRNAs以及扩增和样本准备过程的随机性质。因此,细胞特性指数必须对单细胞测量中的生物和技术噪声具有一定的意义,但也必须足够灵敏,以检测代表混合细胞特征或过渡状态的微弱信号。

为了对相关的细胞身份指数进行研究,因此利用每个单细胞图谱的RNA-seq读取计数,计算预定义标记集中所有基因的平均表达,并根据特定身份的Spec评分对每个基因进行加权。为了减少个别标记散发噪声表达的病例,并控制假阳性,然后根据标记表达的比例调整得分。有效地对许多标记可检测到的身份进行加权。对于所查询的任何给定单个细胞,该过程然后确定每个细胞类型的ICI,然后将其归一化到0到1的范围。该方法生成相对简单的指数,该指数对低水平的零星表达(假阳性)和经常缺少给定标记(假阴性)是健壮的。为了生成置信度测量,作者将大小与原始标记集相同的标记集随机化,并执行1000次排列,以建立每种细胞类型的ICIS的零分布(参见材料和方法)。选用P<0.05,以确定以上背景的显著ICI指数。

同时在进行分析的时候,需要不断的更改cumulative information threshold,使得已知数据集的信息量释放到最大。使用了spec值可以使得以前发表的数据集的表达值更加优化。

因此作者开发的方法可以用于量化身份丢失,并检测在单个细胞配置文件中多重身份的存在 。

为了确定显著性,通过选择等量的随机基因作为标记,计算1000个排列的ICIs,生成一个背景ICIs种群。除非另有说明,否则如果ICIs高于排列前5%,则被认为是显著的。将ici归一化,使每个单元格的ici之和等于1。如果在0.05阈值水平上有多个身份显著,则根据ICI评分所显示的比例,认为该细胞为嵌合或混合身份。如果所有ICIs在0.05水平上都不显著,则细胞身份未分类。

结合我这两天做的icitools方法的结果进行总结,发现每个群体中的标记基因数据比较少,因此会丢失一部分的稀有细胞数据结果,同时要不断的调整informatoin 的level值,然后看自己要的稀有细胞群体的score

另一篇是作者课题组开发的机器学习的算法的来筛选单细胞数据集的markergene的文章。

文章题目:Identification of new marker genes from plant single-cell RNA-seq data using interpretable machine learning methods

网页链接:https://nph.onlinelibrary.wiley.com/doi/10.1111/nph.18053

图片.png图片.png

背景及结果

与传统方法不同,作者使用可解释的机器学习方法来选择标记基因,已经证明了该方法可以基于使用已发布的方法标记的细胞分配细胞类型,通过轨迹分析从一个数据集到其他数据集识别细胞类型,以及基于内部GFP标记分配细胞类型。

目前,确定拟南芥根细胞类型的方法主要有三大类:(1)细胞鉴定指数(ICI)法。该方法使用基于已发表的细胞表达谱信息理论得分的选定标记基因;(2)定义簇标记基因。该方法使用无监督降维方法生成细胞簇,并通过使用已知标记基因可视化表达模式分配细胞类型。(3)相关的方法。这些方法计算单细胞和已发表基因表达数据之间的相关系数。

其中ICI方法能得到得marker基因得数量比较少,每个亚群是20个基因左右,同时运用的数据集比较老,不是很新。而且目前也没有一个标准化的方法来判断有多少个标记基因是准确的。而相关分析这种方法比较不适用于非模式物种,因为大家所研究的内容比较少。

虽然目前有很多的结果是在非植物的系统中已经进行了机器训练来寻找marker基因的方法,但是在植物中还是比较少的,因此这项工作的目的是开发和比较基于机器学习(ML)的方法,以从植物scRNA-seq数据中识别新的细胞标记基因。

作者发现,通过SPmarker鉴定出的大部分新细胞标记基因是之前未鉴定出的。最后,发现spmarker的同源基因与水稻中的单细胞标记基因以及5种植物的根毛中发现的标记基因有显著的重叠,这表明该方法可以促进不同植物的scRNA-seq数据的细胞类型鉴定。

通过这两篇文章对于icitools软件的参数说明,发现很多的研究主要是根据自己所做的生物学意义来的,阈值是可以更改的,因此前面的分析中,要不断的调整参数,来达到数据集的不断优化。

SPmarker流程包括两个主要步骤(图S1)。在第一步中,使用既定的方法对来自不同数据集的细胞表达数据进行规范化和集成(图S2)。这些细胞的身份通过三种方法确定:(1)使用ICI方法,(2)内部GFP标记基因,以及(3)通过轨迹分析手动识别发育阶段相关标记。第二步,对几种ML方法进行训练和比较,以确定最适合预测细胞类型的方法。

图S1.png图S1.png
图S2.png图S2.png

为了鉴定不同细胞群的marker基因,选用了两种的iciscore的方法来对其进行研究。以获得哪种模型更加匹配这种研究的内容,来获得相关的marker基因。

文中得到了选用的可能表明ICI>0.9细胞比ICI > 0.5细胞具有更强的特异性,并且更容易使用不同的标记集进行分类,因此我在做我的数据集test测试的时候,也将这两个指标放进去进行尝试。

该方法的优点:SPmarker方法比传统方法更灵活,该可以训练不同的细胞标记,并选择不同的标记基因集来分类细胞类型。为了证明这一点,作者测试了三个额外的场景:(1)使用不同ICI阈值的标签细胞;(2)标记同一谱系不同发育阶段的细胞;和(3)用内部GFP标记细胞

因此作者选择了课题组以前发表的数据集进行验证,发现可以挖掘到一些新的细胞类群。

因此猜想在这些机器学习的过程中,是不是可以挖掘到一些新的未知的标记基因。

因此对其他的一些植物的细胞群体进行验证,发现在原有基础上,可以发现更多的稀有细胞群。

总结一下相关的内容,可以发现在对细胞的群体进行训练的时候,需要大量的细胞数据的样本才能精细的划分,但是确实可以提高一些,比如未知的非模式植物的研究。

因此后续我还会接着这个spmarker的内容继续尝试,来提高我们这个研究的数据集的内容。

0 人点赞