生信知识库|肿瘤多组学文献精读 正式发布

2020-11-13 10:56:01 浏览数 (1)

公开访问链接

https://www.yuque.com/biotrainee/multiomics_paper

推荐语

五年前从植物领域切入生物信息方向以来,我身边认识的人大多数其实都在从事肿瘤相关领域的研究,即便是同行,背景不同知识储备不同的人也很难在一起愉快玩耍。

为了和大家有话可说,我一直想如何能够从生物信息的角度逐步开始了解一些肿瘤相关知识,于是就发现了「肿瘤多组学文献精读」系列文章。粗看下来,我的第一感受是这些解读非常详细但也略显直白。所谓详细是指一篇文献的所有图基本都会在文章内被提及,所谓直白是指感觉缺少了一些对文献的深入理解和解读(如果一定要找点不足)。

后来和组织者 Robin 沟通后才发现原来这个系列文章背后的同学不少都是本科阶段喜欢科研的医学生。一方面我非常佩服他们的学习热情也感慨组织者 Robin 组织得力,另一方面,详细和直白这两个感受也就不难理解了。

这 40 篇文献都来自 TCGA 官方团队或者高分杂志,对于和我类似的肿瘤方向小白用来入门非常合适,同时,它也很适合那些在肿瘤领域学习多年的同学从更高维度进行学习整理。好内容通常都具有老少咸宜的特点,这也是我们希望把它整理成知识库在语雀发布的原因。

不敢说这些文献精读多么完美,但顺着这 40 篇文章的脉络再配合文献原文学习下来,你一定会有很大的收获。初学者可以更加关注背景知识,进阶者可以更加关注行文思路,技术流可以尝试复现文章图表。

「肿瘤多组学文献精读」系列作为知识库发布并不是一个终点,而是一个起点。这些文献还有很多角度值得深入讨论,所以欢迎你在任意一篇文章的评论区留下自己的想法或者帮助作者们进行勘误。知识库也会随时根据大家的留言进行更新。

以及,再次感谢这一系列文章的每位作者和组织者 Robin,期待他们后续分享更多好的内容供大家参考学习。

思考问题的熊


以下内容为 Robin 所写序言,略有删减。

肿瘤多组学研究的现状和重要性

  1. 随着对多组学分析文献学习和认知逐渐加深,我深刻明白,从多组学的角度进行数据挖掘才能从一个小切入点出发,看到更多维度的变化,才能够有更多的发现;
  2. TCGA 多组学的数据目前大部分的人都把 level4 的转录组数据或者是体细胞突变用得很灵活,但是很多其他组学的数据基本没有涉及到,比如病理数据,CT/MRI 和蛋白芯片数据;此外能把各个组学的数据联合进行分析的也是非常的少;
  3. 越来越多项目基于 TGCA level1-2 的数据进行分析,这也是一些有条件的团队在做真正有意义的数据挖掘;
  4. 其他组学数据库井喷式的开源,更多的数据库公开,但是联合多数据库的挖掘还不多,值得把这波数据挖掘的红利把握住;
  5. 自己搭建原创性数据队列的成本也在逐渐降低:几年前 RNAseq 加上 WES 一整套就得好几万,现在 RNAseq 加上配对的 WES 合起来也就 3.5k 左右,当然你自己也得有服务器和对应的 pipeline 进行分析。

为什么组织文献精读活动

TGCA 团队的文章已经发表 5 年左右了,网上也有不少零散的文章解读,但是大部分是某个研究生做了自己研究领域的肿瘤类型文章解读,顺便分享了出来;并且解读得也是参差不齐。当然我们这里面因为也是 8 位同学随机分配文献进行解读的,也可能会有层次不齐或者是在一些难点上会解读有误的情况,请各位读者批评指正。

另外一个契机是我们自己课题组内的需求,我们自己课题组最近一年左右的时间也积累了好几百个样本(RNAseq/WES),需要对这些数据进行深度挖掘;但是一直没有好好学习过如何挖掘多组学的数据,所以如果能有一些现成的优秀“模板”文章给我们参考学习,这将会是一件非常棒的事情!而 TCGA 团队的系列文章就能做到“模板”的程度,现在很多团队做的一些小瘤种或者是基于 TCGA 团队数据和本地数据的多组学分析验证,大部分都是能在 TCGA 系列文章中找到分析的影子。所以,有了这个项目也是为了督促自己能够学习高水平的多组学分析文章。

精读文献来源介绍

40 周的文献大概有 20 篇文章是 TCGA 团队官方发表的文章,非常专业地进行多组学分析,堪称多组学分析学习的教科书!

TCGA 官方团队的介绍:

The Cancer Genome Atlas (TCGA), a landmark cancer genomics program, molecularly characterized over 20,000 primary cancer and matched normal samples spanning 33 cancer types. This joint effort between the National Cancer Institute and the National Human Genome Research Institute began in 2006, bringing together researchers from diverse disciplines and multiple institutions.

Over the next dozen years, TCGA generated over 2.5 petabytes of genomic, epigenomic, transcriptomic, and proteomic data. The data, which has already lead to improvements in our ability to diagnose, treat, and prevent cancer, will remain publicly available for anyone in the research community to use.

TCGA 团队文章合集:

https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga/publications

TCGA 官方团队数据:

https://portal.gdc.cancer.gov/

关于精读的文献的思路和方法

经过 40 期的文献精读,如果真的想把一篇文章好好的理解透,我觉得最重要的一点就是你得像一个作者一样来剖析这篇文章,反复问自己:为什么要做这个分析?这个分析怎么做的?这个分析的结果怎么解读?这个分析有什么延伸意义和限制性?为了验证全文的科研假设还需要做哪些分析;除此之外,最好是能够在第一次文献阅读结束了以后整理出一份比较详细的文章流程图,能让你思路清晰很多。

在这 40 期的文献里面,很多文献是可以进行文章的复现的,掌握这些“科学假设 - 数据分析 - 结果解读”这样的思路,你在每一个大问题拆解小问题以及小问题的解决过程中就不知不觉成长了。

当然最重要的是你要 push 自己多尝试做一些分析和项目,我一直提倡做事情一定要有始有终。所以做完精读了以后如果可以紧接着把自己在文献中学到的内容好好利用起来,开始一个新的科研项目,就算是第一个项目做出来没有发表,但是你第二次第三次分析的项目能又快又好了。其实有了好几个项目的经验之后,你自己的 coding 能力和科研思路都开阔了,能做的东西越来越多,你也能把那些项目做得更好,这就是一个良性循环。

活动实际开展感受和学习建议

吕琼:

自己的理解是多组学是涵盖了基因组学、转录组学以及蛋白质组学,甚至代谢组学等多个层面的综合研究。

首先是明确自己阅读这些多组学文章的目的:学以致用,学为所用。阅读高分文章,学习其逻辑和框架等,这不仅在肿瘤学中受益。阅读多组学的文章,学习其方法学和主要结论,这主要和自己即将要从事的研究相关。

初学的印象:在接触多组学文献精读的时候,自己有很大的畏难情绪,觉得这类高分文章各种高大上。因为这些文章主要是做 TCGA 泛肿瘤数据挖掘,同时还会包括很多复杂的算法以及各种计算机程序和语言的使用,所以真的挺深奥的。

缓慢成长,点滴进步:一开始是一周阅读一篇并写阅读笔记,但是很多算法和逻辑都不是很明白,所以需要查阅其他很多的中文或外文文献,花费的时间很多。但是阅读文献也是有难到易得到过程,多阅读几篇后就慢慢觉得轻松愉快了不少,自己也逐渐积累了很多高分文章研究中的思维。

最后的感想就是,尽管自己已经不记得每篇文章的详细结论,但是每篇文章的框架大致和论证逻辑,也是在自己心中留下了印象。同时,学以致用,这些高分文章中用到的一些算法,还有其提供的附件资源,都是我们可以借鉴和使用的宝库。

Robin:

这 40 期的学习笔记对应的文献都非常经典,希望大家可以反复阅读,其实我真的觉得你能把文章看懂只是第一个层次,当然很多人还没有到第一层次就已经放弃,各式各样的原因我都听过了;你能把文章复现出来,或者是完全吃透对应的方法学和思路是第二个层次,最后一个层面是你能吸收各篇文章汇总的精华为你所用,让你自己做出优质的项目。

参与成员简介

本次参加肿瘤多组学精读小组分享的一共有 9 人 (由张健教授,郭琳琅教授和 Robin 带的本科生团队) 组建

  • 张健教授团队:吕琼,张楠,易锐斌,孙月琴;张月明
  • 郭琳琅教授团队:王秋平
  • 本科生团队:魏永甲,林安琪,林维茵

虽然有的同学因为学习或者是科研的原因没有按照预期的目标把所有的分享坚持到最后,但是每一次学习和每一次进步我们都是有目共睹的。非常感谢各位小伙伴的努力付出。

0 人点赞