互联网游荡杂志(第21期)-哈佛刘小乐的生信课程被整理成了一本书

2022-12-10 09:21:46 浏览数 (2)

  • Date : [[2022-07-10_Sun]]

  • 微信公众号 : 北野茶缸子
  • Tags : #杂志

分享

1、Introduction to Bioinformatics and Computational Biology (liulab-dfci.github.io)

哈佛刘小乐团队的生信课程:

干货满满:

咋还能说没有学习资源呢?

2、小白请进 · Disco Diffusion · 教程合集 (douban.com)

我最近也尝试用AI 作了几幅画:

文字描述如下:

A digital painting of cyberpunk city by beeple, mist, trending on artstation, V-Ray.

还是非常震撼的。

3、Dtrx - An Intelligent Archive Extraction (tar, zip, cpio, rpm, deb, rar) Tool for Linux (tecmint.com)

解压文件一个命令搞定了:

代码语言:javascript复制
pip install dtrx
dtrx yolo.tar.gz

可能要把tar -zxvf 忘记了吧。

4、Analysis of 3k T cells from cancer — scirpy documentation (scverse.org)

Scirpy is a scalable python-toolkit to analyse T cell receptor (TCR) or B cell receptor (BCR) repertoires from single-cell RNA sequencing (scRNA-seq) data. It seamlessly integrates with the popular scanpy library and provides various modules for data import, analysis and visualization.

5、314.细胞衰老的标记物!请收藏!(qq.com)

列举了九个代表生物体衰老共同特征的暂定标志,包括:基因组不稳定、端粒磨损、表观遗传改变、蛋白稳态丧失、营养感应失调、线粒体功能障碍、细胞衰老、干细胞衰竭和细胞间通讯改变(DOI: 10.1016/j.cell.2013.05.039)。

图片

6、Pointofix中文版安装和使用 - 简书

Pointofix是一款功能强大的屏幕画笔软件,它能够让我们在桌面屏幕中绘制任何图案、线头、箭头或打字。

个人感觉还挺好用的,就是官方语言是德文,不习惯的可能得下载语言包。

7、Themes Gallery — Typora

typora 主题大全,我目前在用Nord (typora.io):

8、谁还不爱装逼呢?

代码语言:javascript复制
conda install -c conda-forge cowpy
conda install -c tsnyder figlet
pip install lolcat
代码语言:javascript复制
figlet HELLO! | cowpy -c dragonandcow | lolcat

9、三个印度人改变压缩算法,一意孤行整个暑假,却因“太简单”申不到经费 (qq.com)

10、体细胞突变的过滤方法--肿瘤基因组测序数据分析专栏 (qq.com)

我也总结了一些过滤策略:总的来说基于以下几个方面。

1-不同方法取交集或并集

比如,Mutect1, Mutect2 (18), and VarDict (19) 三者出现其二的保留。

当然,我们可以多了解一些SNP 或INDEL 的软件,以了解他们的原理。使得交集的结果可信度更高,而不至于造成假阴性。

2-人群数据库

主要针对SNP,排除那些germline 的位点。比如在1000G, EXAC or ESP6500 进行过滤。

而artifact 则是

3-按照比对指标

比如reads, coverage, vaf 等等。

有时候也会特别地对tumor 与配对的normal 都有各自的要求,比如:supported reads ≥4 (≤2) and coverage ≥14 (≥10) in tumors (normal)。

并且有时也会区分snp 与indel:对于INDEL,Somatic indels (insertions or deletions) were called by Pindel with supported reads ≥6, coverage ≥20, and VAF ≥ 0.1。并且手动检查。

4-artifacts

比如segmental duplications regions,sample cross contamination……

gatk 的CalculateContamination 也考虑到了。

5-软件内置过滤

比如mutect2,varscan 等等。

这些软件的过滤有时也会结合其他的过滤策略,比如mutect2 的FilterMutectCalls 模块就同时可以考虑artifacts 与germline。

代码语言:javascript复制
$ grep -v '##' 6-vcf/SRR3182433.vcf | awk '{print $7}' | sort | uniq | tr ';' ' ' | xargs -n 1 | sort -u | grep -v 'FILTER'
base_qual
clustered_events
contamination
fragment
germline
haplotype
map_qual
multiallelic
normal_artifact
panel_of_normals
PASS
position
slippage
strand_bias
weak_evidence

5-blacklist

Finally, a blacklist filter, relating to the genomic location of the variant, was applied. The blacklisted genomic regions were obtained from UCSC Genome Table Browser13 and include regions excluded from the Encode project (both DAC and Duke list), simple repeats, segmental duplications and microsatellite regions.

过滤掉这些“黑名单”位点。

6-多为点取样策略

比如对于那些非trunk 突变,还会进一步检查,满足mapping quality >20 and VAF >2% 条件就会被变为阳性。

相当于这个“过滤”不仅是“滤”了,还回收了一部分信息。

7-人工筛查

参考:Standard operating procedure for somatic variant refinement of sequencing data with paired tumor and normal samples | Genetics in Medicine

主要使用igv 手动的查看。

比如体细胞突变的过滤方法--肿瘤基因组测序数据分析专栏 提到的上述文章中出现的情况,比如低比对质量的情况:

ps:现在包括gatk 在内的工具,也都会按照map quality 等考虑更多的过滤条件了。

又要上班了。中午吃什么好呢?

0 人点赞