DRUGAI
今天为大家介绍的是来自Vivien Marx的一篇论文。降维有助于可视化高维数据集。使用这些工具时需要谨慎,并且要调整参数。有时,这些方法需要反复思考。
用肉眼观察数据可以作为数据分析的开始,但在讲座或论文中向他人展示数据的可视化需要更多的努力。为了在大量的遗传和基因组数据中找到并呈现有意义的模式,研究人员可能会求助于一类用于降维的统计和计算工具。随着遗传学领域及其数据集的迅速增长,带有降维算法的数据可视化工具得到了广泛应用,但有些人认为这些工具会扭曲和误导。
主成分分析(PCA)、t分布随机邻居嵌入(t-SNE)和统一流形近似与投影(UMAP)是生命科学家用来进行降维的工具之一。一篇描述降维工具的论文的作者指出,这些工具在理解数据集的几何和邻域结构方面“既可以是福音也可以是诅咒”。在某些情况下,t-SNE可能会创建虚假的聚类,误导研究人员。t-SNE和UMAP都在保留局部结构方面表现出色,但在保留全局结构方面则有困难。
最近在《自然》杂志上一篇文章中对一幅UMAP图的尖锐批评再次引发了对这些方法的长期讨论。一些研究人员解释了为何需要修改这幅图,并谈到了研究者为何对降维方法的热情如此高涨以及如何更好地使用这些方法。
了解你的维度
哈佛大学T.H. Chan公共卫生学院和Dana-Farber癌症研究所的生物统计学家Rafael Irizarry不喜欢他所看到的许多t-SNE和UMAP图。他说,这些图对论文价值不大,而且这些工具的输出在分析上难以处理。他形容t-SNE和UMAP图为“数据的艺术表现”,缺乏置信度测量和不确定性的指示。
他说,PCA、t-SNE和UMAP将高维数据减少到更易管理的维度。对于单细胞RNA测序(scRNA-seq)数据,t-SNE和UMAP通常用于将数据降维到二维,以便在论文和幻灯片中绘图。为了突出聚类,t-SNE和UMAP比PCA更受欢迎,因为高维数据点在最终的二维中变得“非常接近”,这使得分离不同组成为可能。他说,PCA通常先使用,因为它加速了t-SNE和UMAP的处理,这些工具在处理2万个维度时会非常慢。因此,许多scRNA-seq分析流程首先使用PCA将数据维度压缩到30到100之间,然后再运行t-SNE或UMAP。
Irizarry说,t-SNE和UMAP确实是“非常强大且有用的工具”,科学家应继续使用它们进行数据聚类。这些输出可以暗示研究人员高维数据中的离散聚类。但是,科学家不应完全依赖它们,他强调,必须停止在基因组学中广泛且误导性的使用这些工具。
加州大学洛杉矶分校(UCLA)的研究人员Jingyi Jessica Li对误用t-SNE和UMAP数据可视化的担忧表示认同。她在统计学、数据科学和基因组学交叉领域工作。李晶怡认为,用户不能选择参数设置来“找到自己想要的结果”,否则会陷入确认偏误。参数需要以合理和适当的方式选择。要做到这一点,需要记住这些工具的功能,并考虑数据集的维度。
Jingyi Jessica Li举例说,在群体遗传学中,研究人员可能会在100个个体中测量一百万个SNP,这是一堆高维数据。另一个例子是,如果一个研究团队在一大群人中收集数据,但只收集种族、性别和年龄数据,这就是三维数据,属于低维数据。图宾根大学的数据科学家Dmitry Kobak说,高维数据可能只涉及一种数据类型,例如在许多单细胞中测量2万个基因的表达。包含2万个基因表达数据的表格在许多细胞中是难以处理的。
Irizarry说,可以用PCA来降维。例如,如果两个基因相关且基因表达值相同或接近相同,PCA会将这两个数值平均,并将一个数值保留。这是一种压缩和信噪比改善的组合。
Irizarry说:“PCA并不懂任何生物学。” 它找到能最大化数据方差的一阶主成分(PC)的线性组合。二阶PC则最大化一阶PC未解释的方差。依此类推,三阶、四阶和五阶PC也各自找到最大化剩余方差的线性组合。基于PCA的降维可以提高计算机处理数据分析的速度,并在正确操作时去除一些数据噪声。t-SNE和UMAP是用于降维的非线性方法。这些方法的输出本身并不能确认发现,而且在降维过程中会丢失一些数据。
正如加州理工学院的研究人员Lior Pachter和Tara Chari指出的那样,考虑到基因组数据集的高维性,降维有助于过滤噪声,使计算分析更易处理,并进行探索性数据分析。目标是保留和提取数据中的局部或全局结构,并进行生物学推断。由于这些方法可能会引入失真,他们指出“最好限制降维”,并偏好能够导致“集中可视化”的针对性分析。
Kobak和他的同事Philipp Berens在联合采访中表示,他们知道有些人建议避免使用UMAP或t-SNE图。但他们不同意这种观点。Kobak同意这些图可能会误导,但他认为,t-SNE或UMAP的输出“不是分析的结束,而是分析的开始。”
约翰霍普金斯大学彭博公共卫生学院的遗传流行病学家Genevieve Wojcik说,人类有将数据、趋势和经验进行分组的特性。在使用这些降维工具时,需要考虑这种分组是否与所研究的科学问题相关。“每一个分析决策都是由你的假设引导的,”她说,“没有一个真理适用于每一个数据集。”
汲取教训
美国国家卫生研究院(NIH)“All of Us Research Program Genomics Investigators”基因组研究人员在《自然》杂志上发表的一篇论文中的图正在进行修改。截至发稿时,修改尚未完成。论文分析了近25万名研究参与者的数据,包括临床级别的全基因组测序数据。论文统计了超过2.75亿个此前未报告的遗传变异,并探讨了基因型与近120种疾病之间的潜在关联。正在修改的图是全基因组测序PCA数据的UMAP表示,显示了研究中每个个体的遗传祖先比例,共分为六个祖先群体。
在论文发表后,一些研究人员在社交媒体上批评了这张图。2月下旬,“All of Us”项目的首席执行官Josh Denny发表声明指出,自我认定的种族和族裔的社会构建常常与遗传相似性混淆。声明中提到,“研究中试图在图2中同时表示遗传相似性和自我认定的种族和族裔引发了这个担忧。”在4月初的NIH“All of Us” 的研究者大会上,Denny表示,之所以修改这张图,是因为它“没有遵循最佳指导原则。”这张图受到了合理的批评。
Denny提到,NIH“All of Us” 的研究计划共同资助并共同撰写了一份此前发表的报告。参与编写NASEM报告的Wojcik对这张图的反应以及“我们所有人的研究计划”研究人员的回应感到鼓舞。她发现这些研究人员特别注意与多样性、遗传学、多组学和健康信息相关的最佳实践。自我认定的种族和族裔在群体遗传学中作为有效的构建体有其位置,但这些描述符并不能捕捉遗传方面的特征,它们是社会构建。
在她看来,对这张图的反应和批评展示了人类遗传学领域的变化。人们更加意识到标准做法可能带来的危害,但这一事件也表明改变研究人员使用的方法需要更长时间。她说,“我不认为UMAP本身有什么不好”,但科学家需要决定他们希望展示的点。在这个例子中,他们试图展示研究人群的多样性。然而,这种数据可视化选择意味着“为了展示多样性,你需要展示差异”,这存在问题,就像用算法展示六个来源群体一样。它绘制了参与者基因组中最像这六个群体之一的比例。
“西班牙裔”这一类别意味着这些人来自讲西班牙语的地区,但“从遗传学角度来看,这并不意味着太多,”她说。同样,将所有亚洲人群细分为几个群体也没有太大意义。她认为,人们并不会落入整齐的聚类中。使用聚类算法时,研究人员需要检查这些聚类是否有助于推进他们的科学问题,并在此过程中审视他们在方法选择上的假设。对这些决策的更多反思将改善群体遗传学和整个人体遗传学领域。
别忘了调参
Berens说,使用降维方法时,最好考虑这些方法的数学原理,记住它们保留数据的哪些属性,并了解“它们的优点和缺点”。这种见解有助于用户在使用这些方法时做出明智的选择。他认为,科学家在决定聚类强调数据的哪些方面时,应该记住数据、先验信念和分析选择之间的相互作用。
Berens表示,PCA是一种具有明确数学性质的线性变换。但查看许多绘制的主成分图表是具有挑战性的。作为人类,作者更喜欢使用二维进行探索性数据分析,这样的探索可以揭示之前未发现的惊人特征。Kobak说,这些特征需要进一步确认。降维方法产生的数据可视化并不是生物学发现,不能用它们来简单地说“我看到了,这就是全部,故事结束,论文完结。”
Kobak和Berens在一项发表的研究中评估了一个大规模的scRNA-seq数据集,他们发现生成的t-SNE图并不理想。但他们表示,当时对于如何将t-SNE应用于如此大的数据集知之甚少。从那时起,研究人员学到了更多关于设置参数以更好地利用降维方法来可视化大规模scRNA-seq数据集的知识。
Berens和Kobak指出,需要注意的参数包括困惑度和学习率,它们影响算法的运行方式和生成的聚类形态。Kobak说,t-SNE和UMAP都将邻居位置靠近,但它们的方式略有不同。UMAP往往比t-SNE生成更紧凑的聚类。另一种算法ForceAtlas2在单细胞转录组学中也很受欢迎。即使是相同的数据,这些方法也可能导致不同的聚类。
UCLA研究员li强调了在使用降维方法时参数设置的重要性。她说,有些研究人员可能只是使用t-SNE或UMAP的默认设置,但“默认设置可能并不适合你的数据”。对于t-SNE,她认为一个需要注意的参数是困惑度,对于UMAP,则有两个所谓的超参数。根据参数设置的不同,数据可以表示为更紧密或更松散的聚类。她问道:“你会相信哪个?”她表示,当研究人员使用这些工具来得出与科学假设相关的数据结论时,“需要小心。”
li与她的博士生Christy Lee以及香港科技大学的Lucy Xia一起开发了一种称为单细胞可疑嵌入检测器(single-cell dubious embedding detector,scDEED)的统计方法,希望能帮助研究人员更容易解决这个信任问题。团队注意到,在使用scDEED优化后,t-SNE和UMAP的表示比之前更相似。
scDEED对数据可视化进行质量评估,以避免团队所称的t-SNE和UMAP等降维技术产生的“可疑嵌入”。该软件为每个数据点计算一个“可靠性得分”,从而评估数据可视化中表示的邻近点的可信度。该工具评估了PCA生成的“预嵌入空间”,这是在使用t-SNE或UMAP进行降维之前的步骤。
Christy Lee表示,运行scDEED可能需要一点时间,“因为需要检查不同的参数。”其运行时间取决于计算环境和数据集的大小。花时间进行检查是值得的,因为对数据可视化有更多信任会推动科学结论,例如比较肿瘤细胞和健康细胞的基因表达。
统计学在其中起到重要作用
Irizarry说:“我有一句话,和好的统计学家合作的回报是你发表的论文会减少而且速度会变慢。”虽然这对一些人来说可能显得慢了些,但他说,负责任的统计分析其实并不总是更慢。良好的统计分析对科学研究至关重要。统计方法有着悠久的历史,早在遗传学研究的初期就已经存在,统计学家长期以来一直参与遗传学和基因组学的合作。然而,他记得几十年前有些著名研究人员曾说过,“如果我需要用到统计学,那我就做错了实验”。他说,多亏了基因组学的进步,现在这种情况不再发生。
Wojcik表示,关于UMAP和t-SNE的争论由来已久。她认为,这些工具需要谨慎使用,但科学中的激励机制“并不适合经过深思熟虑的、缓慢而有条理的科学研究。”更广泛地使用统计方法和工具是积极的,追求特定科学问题时更多的反思也同样如此。她说,“妖魔化一种方法”并没有意义,比如UMAP或t-SNE,“它只是数学。”重要的是“人类如何使用它。”
编译 | 黄海涛
审稿 | 曾全晨
参考资料
Marx, V. Seeing data as t-SNE and UMAP do. Nat Methods 21, 930–933 (2024).
https://doi.org/10.1038/s41592-024-02301-x