话二| 直面单细胞数据里的难

2024-05-31 21:17:35 浏览数 (1)

赛尔,你好。

过去的一周,我的心绪总在跌宕着。每一天都有新的事情发生,使我不能静静地在键盘上回复你的留言,想说的话题好像很多,多到一定程度,又不知从何说起。

就像单细胞测序,从2018年开始,已经有不少的文字,既有不断发表的新文章,也有不少经典方法的更新。2018年有人问什么是barcode,2024年依然有人这样问。数据分析的方法虽然有所改善,但是依然还在Seurat所定义的框架内。我这几年的体会是:单细胞数据分析一直很难,不管接触单细胞数据多久,都会这么觉得。

为什么会这样?

前两天在翻《人工智能在生物信息学中的应用》时,在1.3.3组学数据的类型与特点中,作者的洞察或许可以解惑一二。

  • 大数据量。人类所有的基因都能测到,也就是所有的通路都可以分析。这也为数据分析带来挑战:只要你能想到的机制,单细胞测序都能关联上。单细胞数据分析难点之一:聚焦
  • 高维数,大样本。本来在书中,作者写的是“高维数,小样本”,其实2024年的今天,单细胞的样本量越来越大,就像多个平行宇宙的故事一样,如何穿插成一个完整的故事?
  • 非线性。数据类型多样,样本不均衡,非线性的特点决定了,单细胞数据分析过程也是一个渐进明晰的过程,往往需要不断反复。
  • 高噪声。单细胞数据的质控几乎是除了预算之外的第二个拦路虎,比学习编程这条坎还难以逾越。线粒体、核糖体、中值基因、批次校正、双细胞率,这里的每一个都可能要花上个把星期才能说服自己。
  • 数据分布不均衡。特别是临床数据,某些容易获得的样本数量过多,如癌组织,但是正常组织就很少。大家翻翻已经公开的数据库,肿瘤数据库很多,泛癌研究很多,而健康人的单细胞数据基线在哪里?
  • 多组学整合。每个组学都可以理解为一个调控网络,两个结构不同的网络,如何链接在一起?
  • 结论的佐证。这里我们可以思考一个问题:单细胞数据也是测出来的,为什么它的结果还需要其他方法来验证呢?

不管怎么说,单细胞数据分析一直很难。

所以,有时候再给老师朋友答疑的时候,我会冒出一句:欲戴皇冠,必承其重。我们的确是要带着这些难题来讲述自己的生物学故事。

这让我想起高中的时候,有段时间很迷茫,看到别人的成绩那么好、受教育环境那么好、穿的那么好,而自己该如何是好?当时的我,告诉自己:我的确是要在这样的初始条件下,开创幸福人生!

所有的“难”终将过去,或伴随我们成长。

不把这些“难”转嫁出去,而是与之共舞,也很酷。正所谓:两岸猿声啼不住,轻舟已过万重山。

在过去的几年里,单细胞数据分析中进展最快,也讨论最多的当属细胞类型注释,既有cellmarker 这样的数据库,也有大量的算法,比如ChatGPT,然而就在最近,Nature Medicine上的一篇Multiomic analyses uncover immunological signatures in acute and chronic coronary syndromes文章Fig1,用的还是十分朴素的注释和标注的方法。

这个故事告诉我们,虽然很难,只要我们懂得抓住主要矛盾,也能讲好故事。懂得忽略什么,和懂得重视什么一样重要,有时候甚至更重要。如中值基因、线粒体含量、双细胞……

0 人点赞