文章概述
文章标题:《Single-cell RNA sequencing reveals cell heterogeneity and transcriptome profile of breast cancer lymph node metastasis》
发表日期和杂志:2021年发表在Oncogenesis上
在线阅读链接:https://doi.org/10.1038/s41389-021-00355-6
实验设计
乳腺癌是女性中最常见的恶性肿瘤,也是因转移而导致癌症相关死亡的常见原因。腋窝淋巴结也是癌细胞迁移的最常见部位。
本研究收集来自5名患者的5个原发肿瘤和10个配对淋巴结被用于scRNA-seq,研究了来自原发肿瘤和腋窝淋巴结样本的96,796个单细胞的转录组图谱。
单细胞转录组数据情况
数据链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE180286
文章选择5例患者的原发乳腺癌(PC)和2个淋巴结(LN)进行综合分析,用单细胞RNA测序对PC、LN样品进行分析,一共是15个样品,。
代码语言:javascript复制GSM5457199 P1-primary breast cancer-scRNA
GSM5457200 P1-lymph node 1-scRNA
GSM5457201 P1-lymph node 2-scRNA
GSM5457202 P2-primary breast cancer-scRNA
GSM5457203 P2-lymph node 1-scRNA
GSM5457204 P2-lymph node 2-scRNA
GSM5457205 P3-primary breast cancer-scRNA
GSM5457206 P3-lymph node 1-scRNA
GSM5457207 P3-lymph node 2-scRNA
GSM5457208 P4-primary breast cancer-scRNA
GSM5457209 P4-lymph node 1-scRNA
GSM5457210 P4-lymph node 2-scRNA
GSM5457211 P5-primary breast cancer-scRNA
GSM5457212 P5-lymph node 1-scRNA
GSM5457213 P5-lymph node 2-scRNA
提供了txt.gz格式的下载文件,直接下载之后使用fread()函数读取即可。
代码语言:javascript复制GSM5457199_A2019-1.expression_matrix.txt.gz 3.3 Mb
GSM5457200_A2019-2.expression_matrix.txt.gz 4.0 Mb
GSM5457201_A2019-3.expression_matrix.txt.gz 7.6 Mb
GSM5457202_B2019-1.expression_matrix.txt.gz 18.3 Mb
GSM5457203_B2019-2.expression_matrix.txt.gz 7.6 Mb
GSM5457204_B2019-3.expression_matrix.txt.gz 6.6 Mb
GSM5457205_C2020-1.expression_matrix.txt.gz 8.0 Mb
GSM5457206_C2020-2.expression_matrix.txt.gz 6.8 Mb
GSM5457207_C2020-3.expression_matrix.txt.gz 6.0 Mb
GSM5457208_D2020-1.expression_matrix.txt.gz 5.6 Mb
GSM5457209_D2020-2.expression_matrix.txt.gz 4.2 Mb
GSM5457210_D2020-3.expression_matrix.txt.gz 6.2 Mb
GSM5457211_E2020-1.expression_matrix.txt.gz 13.6 Mb
GSM5457212_E2020-2.expression_matrix.txt.gz 4.8 Mb
GSM5457213_E2020-3.expression_matrix.txt.gz 4.3 Mb
数据下载导入,并创建Seurat对象:
代码语言:javascript复制###### step1:导入数据 ######
samples=list.files('GSE180286_RAW//')
samples
sceList = lapply(samples,function(x){
# x=samples[1]
print(x)
y=file.path('./GSE180286_RAW',x )
a=fread(y,data.table = F)
a[1:4,1:4]
rownames(a)=a[,1]
a=a[,-1]
sce=CreateSeuratObject(a,project = samples)
return(sce)
})
samples
samples = substring(samples,12,18)
samples=gsub('-','_',samples)
samples
library(stringr)
names(sceList) = samples
sceList
sce.all <- merge(sceList[[1]], y= sceList[ -1 ] ,
add.cell.ids=samples)
as.data.frame(sce.all@assays$RNA@counts[1:10, 1:2])
head(sce.all@meta.data, 10)
table(sce.all@meta.data$orig.ident)
在批量读取数据之前,一般要先读取一个数据用来进行测试,确认无误后,再使用循环批量读取全部的数据用于后续的分析。
后面就是标准分析啦,对读取进来的数据进行质控、harmony整合以及细分亚群定义等。
第一层次降维聚类分群
经过质量控制、批量效应去除和主成分分析,使用UMAP图展示了27028个来自原发癌组织的单细胞和69768个来自腋窝淋巴结的单细胞。
将所有合格的细胞分为18种细胞类型,其中含有CD44 / ALDH2 /ALDH6A1 集群被定义为乳腺癌干细胞(BCSCs)
其它加分项
乳腺癌细胞的克隆性分析
为了探索乳腺癌的基因组图谱,文章应用INFERCNV算法分析了单个细胞的拷贝数变异(CNV)。通过发现,与其他癌细胞亚群相比,BCSCs的突变较少。
根据BCSCs的细胞计数,选择患者2进行进一步研究。将CNV_CLUSTER分为5类,其中CNV_CLUST5与BCSC一致。
BCSC的CNV特征后来被UMAP可视化证实,其中BCSC与其他恶性细胞区分开来。
基于CNV突变图谱进行进化研究和轨迹分析,推断乳腺癌的发展历程。BCSCs在轨迹历程的早期阶段被发现,并进化为两个癌细胞分支,末端为CNV_cluster1和CNV_cluster4。
拟时序分析显示五个CNV_cluster的转录组谱系
免疫细胞亚群分析
TME是一个复杂的生态系统,由肿瘤组织周围的免疫细胞和基质细胞等不同的细胞群组成。为了证明TME中免疫细胞的转录组特征,使用UMAP显示了来自5个原发病变和10个配对腋窝淋巴结的所有免疫细胞。
文章小结:
- 利用单细胞测序,研究了来自15对原发肿瘤和腋窝淋巴结样本的96,796个单细胞的转录组图谱。
- 鉴定了9个癌细胞亚群,包括CD44 /ALDH2 /ALDH6A1 乳腺癌干细胞(BCSCs),它们的拷贝数变异谱与正常乳腺组织相似。
- 发现BCSCs仅存在于原发肿瘤中,并演化为浸透到淋巴中的转移性簇。
- 转录组数据表明,NECTIN2-TIGIT介导的转移性乳腺癌细胞与肿瘤微环境(TME)细胞之间的相互作用,促进了免疫逃逸和淋巴结转移。