2018年4月Immunity杂志上发表了文章The Immune Landscape of Cancer ,由34个单位共同合作完成。文章对TCGA中33种癌症,超过10,000个肿瘤样本进行了免疫原性分析,将所有肿瘤分成6种免疫亚型,即:
- wound healing
- IFN-γ dominant
- inflammatory
- lymphocyte depleted
- immunologically quiet
- TGF-β dominant
进一步分析:
- 不同亚型间巨噬细胞或淋巴细胞特征、Th1:Th2细胞比例、肿瘤异质性程度、非整倍性、新抗原负荷程度、细胞增殖、免疫调节基因的表达、预后等指标的差异。
- 与免疫相关的驱动突变
- 参与肿瘤免疫的细胞内和细胞间调控网络(调控网络包含转录、microRNA、拷贝数、表观遗传信息)
而且还提供了该文章的详细数据文件在附件!
首先推荐使用gdc客户端命令行工具根据文件附属的:https://gdc.cancer.gov/files/public/file/PanCan-panimmune_Open_GDC-Manifest_1.txt 文件来下载下面的文件:
代码语言:javascript复制PanImmune_GeneSet_Definitions.xlsx
TCGA_pMHC_SNV_sampleSummary_MC3_v0.2.8.CONTROLLED_170404.tsv
ABSOLUTE_scores.tsv
TCGASubtype.20170308.tsv
panimmune_cytokine_network_all_edges_july202018.tsv
merged_sample_quality_annotations.tsv
tcga.pancan.igh.div.txt
pancanMiRs_EBadjOnProtocolPlatformWithoutRepsWithUnCorrectMiRs_08_04_16.csv
mc3.v0.2.8.PUBLIC.maf.gz
EBPlusPlusAdjustPANCAN_IlluminaHiSeq_RNASeqV2.geneExp.tsv
PanCanAtlasTumors_color_coded_by_organ_system_20170302.tsv
Scores_160_Signatures.tsv.gz
TCGA_mastercalls.abs_tables_JSedit.fixed.txt
PanCanAtlas_miRNA_sample_information_list.txt
ViralListForBBT.tsv
TCGA_PCA.mc3.v0.2.8.CONTROLLED.filtered.sample_neoantigens_10062017.tsv
TCGA.HRD_withSampleID.txt
SYGNAL_immune_subtype_network_att.txt
TCGA_all_leuk_estimate.masked.20170107.tsv
all_thresholded.by_genes_whitelisted.tsv
TieDIE_PancancerImmuneModulators_1.0.sif
jhu-usc.edu_PANCAN_HumanMethylation450.betaValue_whitelisted.tsv
viral.tsv
ISAR_GISTIC.all_thresholded.by_genes.txt.gz
TCGA.Kallisto.fullIDs.cibersort.relative.tsv
seg_based_scores.tsv
all_data_by_genes_whitelisted.tsv
SYGNAL_immune_subtype_network.sif
jhu-usc.edu_PANCAN_merged_HumanMethylation27_HumanMethylation450.betaValue_whitelisted.tsv
mitcr_sampleStatistics_20160714.tsv
ISAR_GISTIC.all_data_by_genes.txt.gz
TCGA-RPPA-pancan-clean.txt
mutation-load_updated.txt
gdc客户端命令行工具 安装及使用
本来你应该是去 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件的,但是这个2018年4月Immunity杂志上发表的文章The Immune Landscape of Cancer已经给出了mainfest 文件:https://gdc.cancer.gov/files/public/file/PanCan-panimmune_Open_GDC-Manifest_1.txt
首先下载和安装gdc客户端命令行工具
很有趣是居然区分了python版本 :
这种软件解压即可使用,所以没什么好纠结的, 代码如下:
代码语言:javascript复制# https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
which python
mkdir -p ~/biosoft/gdc_client
cd ~/biosoft/gdc_client/
wget https://gdc.cancer.gov/system/files/authenticated user/0/gdc-client_v1.5.0_Ubuntu_x64.zip
unzip gdc-client_v1.5.0_Ubuntu_x64.zip
./gdc-client --help
./gdc-client download --help
使用gdc客户端工具下载PanCan-panimmune_Open_GDC-Manifest_1.txt 里面的文件
代码语言:javascript复制cd ~/biosoft/gdc_client/
mkdir PanCan-panimmune
cd PanCan-panimmune
wget https://gdc.cancer.gov/files/public/file/PanCan-panimmune_Open_GDC-Manifest_1.txt
nohup ../gdc-client download -m PanCan-panimmune_Open_GDC-Manifest_1.txt &
因为文件内容还是蛮多的,所以会耗费一些时间,可以看到甲基化的确是最耗费空间的。(如果你网速差,那就需要求助海外朋友哦,毕竟是49G的数据文件啊)
那么这些数据拿到手上后该进行哪些分析呢?必须看我们的TCGA系列视频课程啊!