Spatial heterogeneity of the T cell receptor repertoire reflects the mutational landscape in lung cancer
Nature Medicine(IF:36.13)
2019.10.
导语
GUIDE ╲
非小细胞肺癌具有逐步出现突变的特征,大量的突变会产生新抗原以及肿瘤关联的抗原,同时会刺激产生抗肿瘤反应。肿瘤的基因组和免疫异质性是由肿瘤逃避这种免疫反应的各种机制所形成的。
背景介绍
免疫编辑(immunological editing)包括克隆新抗原的DNA拷贝数丢失、新抗原的转录抑制、人类白细胞抗原(human leukocyte antigen,HLA)和抗原呈递组分的丢失或突变、干扰素(IFN)和白介素(IL)-2信号组分的突变。肿瘤异质性可影响疾病进展,如高克隆非同义突变负荷与减少疾病复发和改善检查站封锁响应有关。
抗原特异性T细胞反应是抗肿瘤反应的核心特征,是理解肿瘤和宿主之间复杂关系的基础。虽然大多数靶向肿瘤抗原仍然未知,但TCR库提供了一种评估T细胞免疫反应的广度和强度的方法。因此,本工作研究NSCLC瘤内TCR库(所有TCR的全部集合),以记录肿瘤内单个TCR的空间异质性,并研究这种异质性如何与基因组异质性相关。
TRACERx(Tracking Cancer Evolution Through Therapy)研究为系统研究未治疗早期非小细胞肺癌的基因组和免疫瘤内异质性提供了一个罕见的背景。TRACERx是一个大型的(> 700名患者)前瞻性的多机构研究,通过分析多范围的肿瘤标本来分析从早期到晚期非小细胞肺癌疾病的遗传进化和评估肿瘤基因组和免疫对疾病进展的影响。在之前的一篇相关的论文中,该团队使用转录分析来描述瘤内免疫浸润,并将其与突变景观联系起来,并强调了肿瘤免疫编辑的多种机制。今天向大家介绍的这篇文章是将此分析扩展到瘤内TCR库。
已经有一些研究使用TCR测序来检测包括非小细胞肺癌在内的实体肿瘤中的瘤内T细胞应答。在检查点封锁中,TCR分析也被用作生物标志物。该团队最近发表了一个关于TCR测序实验和计算的方法。与标准的商业TCR测序方案相比,该方法在每个cDNA分子中加入了唯一的分子标识符(UMIs),能够对测序和PCR错误和偏倚的精确计算进行校正。该方法实现了高水平的定量精度。本工作使用该方法对72名TRACERx早期未治疗NSCLC患者的多区域肿瘤样本和匹配的非肿瘤肺和血液中的TCR库进行了定量比较。
数据介绍
本工作对TRACERx研究样本的72名患者的原发性非小细胞肺癌手术的220个肿瘤区域、64匹配的非瘤肺组织和56个外周血单核细胞(PBMC)样本进行α链和β链的TCR repertoires测序。
方法介绍
1. TCR测序
利用从NSCLC肿瘤样本、非肿瘤肺组织或低温保存的PBMC样本中提取的全RNA,首先通过前面描述的定量实验和计算TCR测序方法[ref.36,41]进行TCR的α链和β链测序。原始DNA fastq文件和处理的TCR序列可在NCBI Short Read Archive and Github获取到。然后使用之前的一种qPCR方法来测量肿瘤样本中TCRα链或β链的转录本,作为所表示的TCRs总数。通过流式细胞仪(CD3)和细胞计数来计算T细胞的绝对数量,标准化这些TILs测量,可以估计肿瘤样本中T细胞的数量。最后比较qPCR方法估计的T细胞总数和通过上述TCR-seq方案获得的TCRs总数。得到的评估覆盖率为7±2%的α链和13±3%的β链(n=8)。如上所述,越高的β链效率可能反映了每个细胞的转录本数量越高。
2. Rényi熵
使用R包vegan中的Rényi function来计算Rényi多样性。Rényi值对样本量很敏感,所以在计算Rényi值之前,所有repertoires都重复100次重抽样到相同数量的TCRs(5000)。图显示了每个肿瘤区域或非肿瘤肺的抽样平均值。
3. TCR频率分布
TCR丰度的频率分布(观察TCR的次数)在频率与丰度的log–log plot上落在一条近似的直线上。本工作通过参考文献[ref.50]中描述的最大似然估计拟合了一个离散的幂律分布。
4. 肿瘤和非肿瘤肺expanded TCRs的分类
该工作计算了肿瘤或非肿瘤肺样本中频率高于一定频率阈值范围的TCRs的数量(图1c)。为了定义最expanded TCR,检查了至少一个肿瘤区域中超过阈值频率2/ 1000(对应于经验TCR频率分布的前1%)的TCR。计算了肿瘤中TCR的相对丰度(所有区域的平均值)与同一病人的配对的非肿瘤的丰度。
5. Repertoire瘤内相似性和多样性的测量
两个TCR repertoires之间的相似性通过TCR丰度向量之间的归一化点积(余弦相似度)来评估。这个度量是在机器学习中广泛用于比较数值向量的一个完善的度量,给出了0(不相似,即正交向量)和1(完全相似,来自特征空间中具有相同大小和方向的向量)之间的值。
6. 普遍的和区域的TCR定义
Expanded瘤内TCRs随后被分为普遍的或区域性的。首先确定一个区域由于抽样而缺少TCR的概率。对于每个TCR,比较了给出两种可选模型的数据的可能性。在模型1(零模型)中,TCR计数是从一个泊松分布中提取的,其均值等于所有区域的均值。在模型2中,TCR计数来自混合分布,其中一个或多个区域不具有TCR,其概率为1,其余区域来自泊松分布。然后计算两个模型之间的对数似然比(似然比检验(likelihood ratio, LR) 是反映真实性的一种指标,属于同时反映灵敏度和特异度的复合指标。似然比定义为有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。似然比检验的思想是:如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值)。最后,对于每个TCR,运行两个模型1000次,绘制独立的偏离泊松分布,其均值等于所有区域的均值。计算了模拟中观察到的对数似然比大于或等于真实数据观察到的对数似然比的比例(p)。这个过程给了一个P值的非参数估计,修正了模型2增加的复杂性。算法在R中实现,在每个肿瘤的所有TCRs上运行。如果P值(经多次检验校正)小于0.05,则认为TCR不存在(null模型解释数据的可能性明显低于替代模型2的TCRs)。如果肿瘤的至少一个区域没有Expanded TCRs,则将其归类为区域型,否则定义为普遍型。因此,普遍的TCRs可能在特定区域的数据中缺失,但这是由于采样,而不是真正的空间异质性。
7. CDR3聚类和聚合重组
使用R包CDR3translator识别expanded普遍TCRs中CDR3蛋白序列。基于氨基酸三联体sharing,对三联体间的相似性进行了测定。使用R包Kernlab的stringdot函数对Sharing进行量化。计算两个CDR3共享的氨基酸三联体(三个连续氨基酸的集合)的数量,比较每个CDR3中的三联体标准化后的数量。使用R包iGraph将TCR相似度矩阵转换为网络图。若相似度指数为>0.82,则认为两个TCRs是连通的。选择的是从研究中随机抽取TCR样本始终给予少数大的(>3)类的最低阈值。作为TCR聚类分析的额外对照,从两名患者中选取了expanded ubiquitous TCRs,并混合在电脑模拟中,观察得到的聚类是否主要由个体患者的TCR组成。分析了三对以这种方式观察到显著聚类的患者。“specific”(即不混合来自不同患者的TCRs)的聚类比例为84%、89%和80%。因此,大多数类在repertoires之间是分割开的。在观察到的混合的类中,通常绝大多数的TCRs来自于一个或另一个患者。
聚合重组(convergent recombination),即不同的核苷酸序列编码相同的CDR3氨基酸序列。
8. 计算类的多样性
想要了解每个类是主要由同一区域发现的TCRs组成,还是包含了许多不同区域存在的TCRs。因此,对于每个CDR3类,计算Shannon多样性,计算了每个可能的区域组合对集类的贡献。计算所有类的多样性得分的平均值为每个患者的指标。
9. GLIPH(grouping of lymphocyte interactions by paratope hotspots)
使用上面提到的TCR相似矩阵,对于每个患者,对3000个与任何expanded普遍型序列最相似的CDR3β链序列上运行GLIPH(由于聚类结果的一致性,选择了3000)。分析有多少普遍的CDR3s落在一个类中,并计算包含这种序列的不同类的数量。重复了100次这个过程作为对照,用来自同一患者库的相同大小的随机集的TCRs替换真正的普遍型TCRs,然后计算有多少类包含一个“错误的”普遍型CDR3。
10. 聚合重组
为了测量聚合重组,计算了产生了每个expanded瘤内普遍型CDR3序列的TCR DNA序列(由Decombinator确定)的均值。使用expanded区域瘤内CDR3序列或同一患者瘤内库随机选择一组(相同数目)的CDR3序列作为对照。对于每个患者,绘制了每个CDR3序列的平均DNA序列数。
11. 多区域全外显子组测序分析
Illumina生成原始数据fastq格式使用 GATK匹配到hg19 genomic。使用Picard tools清除、排序和合并来自同一患者区域的文件,并删除重复reads。使用Picard工具、GATK工具和FastQC工具的组合产生质量控制指标。用SAMtools mpileup定位肿瘤和种系标本的非参考位置。使用VarScan2 somatic在SAMtools mpileup的输出中识别肿瘤和匹配的种系样本之间的体细胞变异。采用VarScan2 processSomatic提取体细胞变异。MuTect也用来检测SNVs。
12. 普遍型和区域型突变的分类
选择了非同义突变进行进一步分析,加上所有引入或移除终止密码子或引入框移的突变。分布呈双峰,一个峰在非常低的频率,另一个峰的模态为1。因此根据这种分布,定义了10%的硬阈值,并将所有频率小于10%的突变归类为不存在,将所有频率大于10%的突变归类为存在。由于其分布具有显著的生物特性,因此阈值的减少或增加50%都不会对每个类别的实际突变数量产生太大影响。如果每个突变在肿瘤的所有区域都存在,将其分类为普遍存在,如果至少在一个区域没有突变,将其分类为区域型突变。因为就T细胞识别而言,一个区域是否存在突变比该突变的进化历史(例如,它是truncal还是subclonal)更相关。普遍型突变的数量与克隆突变的数量高度相关,区域突变的数量与亚克隆突变的数量相关。
13. 转录模块和RNA-seq
测量基因模块中转录活性的方法在Pollara等人的文章[ref.56]中有详细描述。首先定义一组识别细胞类型或功能状态(例如IFN反应)的基因。本工作使用的是在Danaher等人[ref.49]或Pollara等人的研究中报告和验证的基因集。每个细胞类型的基因集列在Supplementary Table 1中。在每个样本中,使用RNA-seq数据来计算集合中每个基因的转录丰度的几何平均值(以每百万转录量作为转录丰度的标准化度量)。这个平均值定义了每个模块的转录活性,然后与该样本中检测到的普遍型或区域的TCRs的数量相关联。
14. 生存分析
使用R包survival进行生存分析,根据突变或TCRs的上四分位数或下四分位数或多变量Cox回归对患者进行分组。
15. 统计分析
采用Spearman非参数秩相关检验进行相关分析。在适当的情况下,使用了多变量回归,使用对数转换数据来表示突变数和TCRs数。使用Mann-Whitney双尾配对或非配对非参数检验来确定是否从相同的总体中选择了两个独立样本。P< 0.05认为显著,适当时采用Bonferroni校正对显著性值进行多次检验。使用Kaplan-Meier统计或Cox多因素回归计算无病生存的差异。
结果解析
01
NSCLC肿瘤中含有差异表达的expandedTCRs
每个肿瘤样本中独特的α-chain和β-chain转录本中位数分别为2339和3711,反映了瘤内T细胞高度多样化的多克隆群体。最近的相关研究强调了肿瘤中存在大量的“旁观者”(“bystander”)T细胞,这可能反映了受局部炎症驱动的效应记忆T细胞在肿瘤组织中持续迁移。与此一致的是,肿瘤中不同TCRs的丰度分布近似遵循离散幂律分布(幂律分布的形状,是一个不断下降的曲线,从最高的峰值开始极速下降,后面拖了一个长长的尾巴),类似于血液中循环效应记忆T细胞(图1a)。TCR库在肺的非肿瘤中的分布与肿瘤中分布相似(图1a)。不同Rényi熵(评估统的多样性的指标)所捕获的肿瘤和非肿瘤肺TCR序列的差异性也没有显著性差异(图1b)。
本工作假设由于T细胞的克隆性扩张(clonal expansion,克隆选择激活的B淋巴细胞和T淋巴细胞的增殖,以产生相同的细胞克隆。这使得身体有足够数量的抗原特异性淋巴细胞来发动有效的免疫反应)和组织驻留(tissue retention),tumor-specific T细胞会在肿瘤中expanded T细胞集(如果一个naïveT细胞的TCR结合一个特定的抗原,即具有足够亲和力的MHC复合体,T细胞在保持其初始TCR序列的同时,将无性扩张(clonally expand)。这大大增加了T细胞的丰度,这些细胞能够识别特定的病原体,能够产生有效的免疫反应)中富集。接下来选择最expanded TCRs,其阈值对应的TCR位于经验肿瘤频率分布的前1%,进行进一步深入的分析(Fig. 1c)。反映了幂律分布关键的“重尾”,expanded TCRs平均只占观察到的unique TCR序列的1%,但占观察到的总TCR的近20%,即每5个TCR中有1个(图1d)。
非肿瘤组织中也含有上述定义的expanded TCRs(图1c)。因此,研究了与匹配的非肿瘤肺组织相比,瘤内expanded TCRs是否在肿瘤样本中富集。接下来计算似然值,每个瘤内expanded TCR 在肿瘤内观察到R次,在非瘤组织内观察到N次,实际上是通过随机抽样(假设从均值(R N)/2的分布中抽样得到一个随机泊松抽样分布)从相同的总体推导而来的,并绘制了肿瘤和非肿瘤中的expanded TCRs的对数似然度与对数相对丰度比值(图1e,f)。大多数瘤内expanded TCRs在肿瘤样本中差异表达,而与肿瘤样本相比,在非肿瘤中expanded TCRs倾向性表达的比例较小。在肿瘤和非肿瘤肺中,α链和β链基因均有显著差异。
通过对肿瘤组织进行全外显子组测序,分析了肿瘤样本中expanded TCRs的数量与非同义突变的数量之间是否存在关系。瘤内明显expandedα链和β链序列的数目与突变的数量相关(图1g)。相关性在一定的TCR expansion频率阈值范围内稳健(图1h)。与预期的一样,观察到非肿瘤组织中expanded TCRs的数量与非同义突变的数量之间没有显著的相关性(图1h)。
02
NSCLC中普遍型和区域型expanded TCRs反映了肿瘤突变景观
图2a显示了几个患者不同肿瘤区域expanded TCRs的丰度。expanded TCR的异质性在不同患者之间存在明显差异,部分患者在肿瘤个体区域之间存在显著差异,而其他患者的肿瘤则表现出更均匀的TCR表达模式。接下来通过两种方式量化TCR在瘤内的异质性。首先为成对的肿瘤区域定义了一个区域间相似度指数(余弦距离),发现肿瘤内部和不同肿瘤之间差异很大(图2b)。然后还测量了所有肿瘤区域所有TCRs的平均归一化Shannon多样性(图2c,患者需有三个或三个以上肿瘤区域样本)。同样,根据不同肿瘤区域非同义突变的普遍性程度,定义了成对基因组相似性或平均归一化Shannon基因组多样性指标。TCR相似性和TCR空间多样性(图2c)与基因组指标显著相关,支持了TCR空间异质性反映基因组瘤内异质性的假设。
接下来通过使用一个统计模型来将肿瘤内expanded TCRs分为普遍型和区域型TCRs。对于一个肿瘤的一个或多个区域中不存在的expanded TCR,定义了一个概率p,即该区域的TCR不存在是由于采样(零假设)。定义区域型TCRs为P<0.05的TCRs。检测每个患者的普遍型和区域型非同义突变(图2d)以及普遍型和expanded区域型TCRs(图2e)的数量。expanded区域型TCRs比普遍型TCRs表达丰度更高(图2f)。
接下来在普遍型或区域型分类的情况下,重新分析了expanded TCRs和非同义突变负荷之间的关系。expanded瘤内普遍型TCRs的数量与普遍型突变的数量相关,与区域型突变的数量无关(图2g)。而expanded的瘤内区域型TCRs数量与区域突变数量相关,与普遍型突变数量无相关性(图2g)。多变量回归分析中,区域型TCRs与α链区域突变相关,与β链区域间的基因突变有相关趋势,但与普遍型基因突变不相关。
最后,对肿瘤突变负荷、肿瘤内expanded TCRs数量和临床结果之间的关系进行分析,并测量了第一次复发的时间。与之前研究中所预期相同,对于存在大量总的或普遍型非同义突变的患者,临床结果得到改善。然而,在大量expanded的普遍型或区域型瘤内TCRs患者中,疗效没有差异(图2h)。
03
Expanded 瘤内TCR CD3序列识别TCRs类并显示聚合重组增强
该团队的lab[ref.41,42]和其他人之前的工作[ref.43,44]已经强调了短蛋白模体在定义TCRs抗原特异性中的重要性。因此,接下来在共享氨基酸三联体的基础上,在肿瘤库中搜索相关TCR序列类(图3a)。许多expanded瘤内普遍型TCR序列观察到形成一个高度相关的TCR序列类的一部分(图3b)。相比之下,随机抽取来自同一肿瘤库的CDR3s样本,聚类情况则少得多(图3b,d)。图3c展示了一个从单个聚类中对CDR3序列进行比对的典型例子,说明一组高度相关的TCR序列。GLIPH是一种已发表的用于TCRs的聚类算法,当使用expanded普遍型TCRs时,将其与从相同库中随机采样的CDR3s集进行比较,检测到更多的类。
Expanded瘤内区域TCRs也表现出聚类,区域型和普遍型TCRs形成的类数无显著差异。然而,包含expanded普遍型TCRs的类与包含expanded区域型TCRs的类的成分不同。与普遍型TCRs相比,带有区域型TCRs的类所包含的TCRs来源于较少的区域(图3e,f)。这一观察结果支持了区域型TCRs对区域型抗原产生应答的假设,并为普遍型和区域型TCRs对不同空间分布的抗原产生应答提供了额外的独立证据。
编码每个expanded普遍型TCR的不同DNA序列的平均数量显著高于expanded区域型TCR或从同一序列中随机选择的TCR的平均数量(图3g)。这种现象(“聚合重组”)是抗原驱动反应的进一步特征。CDR3序列类的存在与expanded瘤内TCRs相关,这些序列聚合重组增多与TCRs子集识别一组抗原特异性T细胞的假设一致。
04
Expanded瘤内普遍型TCRs与TH1和CD8 T的转录特征相关
接下来通过几种间接的方法检测了瘤内展现expanded TCRs 的T细胞的功能特性。首先查看肿瘤的转录状况,计算肿瘤每个区域的特定细胞类型和功能状态的一组基因的转录评分。expanded瘤内普遍型TCRs数量与type 1 T helper (TH1)和CD8 基因集的转录评分显著相关(图4a)。与耗竭T细胞、自然杀伤(NK)细胞和IFN-γ响应的转录特征相关性不显著。相反,expanded区域型TCRs数量与T细胞、CD8 T细胞、衰竭T细胞、NK细胞、树突状细胞、中性粒细胞和IFN-γ基因模块的转录评分呈负相关。说明CD8 T细胞反应强烈的肿瘤区域富集expanded普遍型T细胞,但缺乏expanded区域型T细胞。
PD-1高表达和CD57缺失是肿瘤特异性CD8 T细胞功能失调的特征。接下来利用流式细胞术将3例患者肿瘤中的CD8 肿瘤浸润淋巴细胞(TILs)(图4b)分为PD-1 CD45RA–CCR7–CD57–cell(简称PD-1 )和其他所有CD8 T细胞(简称PD-1 -),并进行RNA测序。对这些转录组挖掘expanded瘤内普遍型和区域型TCRs。然后得到RNA-seq数据中检测到的TCRs总数。发现PD-1 区和PD-1−区均经常检测到expanded普遍型TCRs,表明相同的克隆型可分化为两种表型(图4c)。在PD-1 人群中,33±6%的TCR CDR3 RNA reads可归因于expanded瘤内普遍型TCRs,而在PD-1 -人群中,16±3%可归因于expanded瘤内普遍型TCRs。在三名患者的肿瘤RNA-seq数据中,expanded区域型TCRs检测低丰度,这可能反映了RNA-seq样本中这些TCRs的平均丰度较低。
该团队之前发表的工作已经证实了在患者L011多区域肿瘤样本中存在新抗原反应性CD8 T细胞[ref. 3]。该患者的肿瘤DNA编码400个假定的新抗原,其中90% 是克隆的(图4d)。通过荧光MHC多聚体结合到MTFR2基因普遍型突变编码的肽上对CD8 TILs进行分类(图4e),然后对分类后的细胞进行单细胞RNA-seq检测。通过对单细胞RNA-seq数据的TCR序列分析,发现了两个TCRs家族,其基础是TCR的α链和/或β链 CDR3序列共享(图4f)。将来自同一患者的单细胞的单细胞β链序列与bulk TCR测序数据进行比较,发现两个TCRs家族均在肿瘤中expanded和富集,并在肿瘤中广泛表达(图4g)。这一功能观察支持了expanded普遍型TCRs可能识别广泛表达的新抗原的假设。
05
Expanded瘤内TCR序列能够在血液样本中识别并长期存在
接下来匹配的血液样本中寻找一组expanded瘤内TCRs。在肿瘤切除时采集的血样中检测到许多expanded瘤内TCRs(图5a)。血液中发现的expanded瘤内普遍型TCRs的比例(图5b)和频率(图5c)均高于区域型TCRs。然后调查了非复发随访血液样本中expanded TCRs的存在情况。与基线相比,肿瘤切除后的常规随访中,血液中肿瘤内普遍存在的expanded 普遍型TCRs的比例明显降低(图5d),反映了肿瘤的消减和相应的抗原负荷的下降。在基线血液样本和随访血液样本中,expanded瘤内区域型TCRs的比例(图5d)或非肿瘤expanded TCRs的数量(图5e)均无显著差异。虽然术后血液中检测到的expanded瘤内普遍型TCRs数量减少,但许多瘤内普遍型和区域型TCRs在数月后在血液中检测到,说明建立和稳定的记忆反应。在疾病复发时repertoire的变化呈现出不同的模式,一些expanded TCRs频率增加,而另一些则减少,可能反映了肿瘤抗原景观的动态性质。
肿瘤免疫反应的动态性质在有三个纵向血液样本的患者中得到了进一步的说明(图5f)。对于患者CRUK0013和患者CRUK0046,观察到在随访血液中大量expanded瘤内普遍型TCRs消失,并在复发时的血液中再次出现。在患者CRUK0048中,在疾病复发期间的两个时间点都有血样,观察到在疾病复发后expanded瘤内普遍型TCRs依次消失和再次出现。在这三种情况下,在所有的三个时间点,都观察到大量expanded瘤内普遍型TCRs。
小编总结
本工作对72名TRACERx早期未治疗NSCLC患者进行TCR测序,分析瘤内TCR,并将其与突变景观联系起来。研究表明NSCLC肿瘤中含有expanded TCRs,其在肿瘤中表达与非肿瘤肺不同,其数量与肿瘤突变负荷相关。然后将肿瘤内expanded TCRs分为普遍型和区域型TCRs,进一步重新分析了与非同义突变负荷之间的关系。发现expanded瘤内普遍型TCRs的数量与普遍型突变的数量相关,与区域型突变的数量无关。接下来研究发现expanded瘤内TCR CDR3序列识别相关的TCRs类并显示增强的聚合重组。Expanded瘤内普遍型TCRs与瘤中TH1和CD8 T细胞的转录特征相关,其表型与组织常驻肿瘤抗原反应T细胞一致。最后研究表明在原发性肿瘤切除时,expanded瘤内TCR序列可在匹配的血液样本中识别,并可长期存在于血液中。