肿瘤学的一个关键目标是,在可以治愈的前提下及早诊断癌症。尽管取得了数十年的进步,但无症状患者的早期诊断仍然是一项重大挑战。大多数方法涉及检测癌细胞或其DNA,但其他专家建议采取另一种方法,着重于人体的免疫反应。作者认为,癌症的存在可能导致T细胞受体组成的改变,然后可以检测到。他们设计了一种深度学习方法,用于区分有或没有癌症的患者血液中的T细胞血统,并在多个临床队列的样本中进行了验证。
适应性免疫系统在早期识别肿瘤抗原以消灭癌细胞。这个过程伴随着肿瘤抗原特异性T淋巴细胞的全身增殖。尽管由于肿瘤尺寸小和体细胞变化有限,无症状早期癌症的检测具有挑战性,但是跟踪外周T细胞库变化可能为癌症诊断提供有吸引力的解决方案。在这里,出国看病网开发了一种名为DeepCAT的深度学习方法,可以从头开始预测与癌症相关的T细胞受体。出国看病网使用从多个主要组织相容性复合体I多聚体分选实验获得的癌症特异性或非癌症TCR验证了DeepCAT,并证明了其对癌症抗原特异性TCR的预测能力。出国看病网盲目地应用DeepCAT使用血液TCR序列来区分600余名健康患者和250余名癌症患者,并观察到较高的预测准确性,对于多个早期癌症,曲线下面积≥0.95。这项工作为将外周血TCR谱用于非侵入性癌症检测奠定了基础。
早期诊断可治愈大多数恶性肿瘤。器官特异性影像学评估,包括结肠镜检查,乳腺X光检查和低剂量肺部计算机断层扫描扫描,被广泛用于检测有限类型的早期癌症。血液测试监测选定的癌症生物标志物,包括前列腺特异性抗原,CA-125,和CA-153,也已在临床研究中,但没有达到群体水平筛选所需的高特异性 。单细胞和高通量测序技术的飞速发展具有依靠无细胞DNA或液体活检中循环肿瘤细胞的先进检测方法。尽管它们显示出令人兴奋的癌症诊断潜力,但基于cfDNA的方法依赖于预先选择的一组癌症体细胞突变,而循环肿瘤细胞的鉴定通常依赖于一些上皮生物标记物或细胞形态变化,这可能是主观的和非特定的。最近的一项研究进一步表明,血浆cfDNA中发现的大多数突变均来自白细胞而不是癌症,因此使基于cfDNA的方法的特异性受到质疑。成像扫描,癌症生物标志物,cfDNA和循环中的肿瘤细胞均取决于与肿瘤相关的分子,并且对于所有方法而言,早期肿瘤的检测都是困难的。
在这项工作中,出国看病网探索了使用免疫库作为独立的癌症诊断方法的可行性。对肿瘤抗原具有反应性的T细胞是癌症免疫力的主要介质,也是免疫疗法的主要靶标。通过免疫编辑,预期T细胞库在肿瘤进展期间经历癌症特异性变化。但是,由于大多数癌症抗原都是未知的,鉴定与癌症相关的T细胞仍然很困难,目前,还没有诊断方法可以监视T细胞库中的信号。为了弥合这一差距,出国看病网假设与癌症相关的T细胞受体可能共享共同的生化特征,从而可以从头进行鉴定。先前观察到在免疫原性表位和肿瘤浸润性T淋巴细胞受体中疏水残基的使用率更高,以及最近对乳房或结直肠中一致的生物物理化学基序的研究的支持,这一假设得到了支持。正常组织中不存在的TIL。
从头开始预测caTCR的DeepCAT方法
在这项工作中,出国看病网开发了一种深度学习方法来从头预测患者血液中的caTCR。为了生成训练集,出国看病网应用了TCR库实用程序固体组织或信任算法,以从约4200肿瘤RNA测序提取的TCR的互补性决定区3癌症基因组图谱中的样本涵盖了32种癌症类型。TRUST是一种计算方法,用于从大量组织短读RNA-seq数据执行TCR高变CDR3区的高灵敏度从头组装。出国看病网排除了在健康供体中也发现的公共序列,并获得了43,000多个完整的生产性β链CDR3序列作为训练数据。由剩余的序列编码的TCR被假设为是特定于肿瘤微环境,并更可能是癌症相关的。从一群年轻健康供体的血液β链CDR3序列中收集了非癌症对照TCR。健康献血者中约有一半携带了人类巨细胞病毒感染,这种感染通常在成年人中发现。
从蛋白质结构研究中总结了20种氨基酸的生化特征,称为AA指数。出国看病网发现,索引的子集在caTCR中显示出不同的分布,作为其预测标记。深度卷积神经网络是研究功能基因组学和蛋白质结构的强大工具,并且可以识别隐藏模式来解决困难的分类问题并获得比传统方法更好的性能。因此,出国看病网开发了用于癌症相关TCR的Deep CNN模型,以学习代表特征。在此模型中,首先将每个CDR3序列转换为具有主成分分析编码的二维图像,以整合AA索引,然后传递到两个连续的一维卷积层上,每个层均具有8和16个滤镜。以40%的比率将随机缺失应用于密集层,以防止过度拟合。输出层产生癌症关联的可能性。因为具有不同长度的CDR3的通常形成不同的环结构,以与所述抗原,出国看病网建立了五个模型,每个模型的长度为12到16。这些长度覆盖了整个外围TCR曲目的83%。DeepCAT经过三重交叉验证训练,并且使用单个βCDR3序列从头预测caTCR的平均准确度达到了80%,这是通过接收器工作特征曲线下的面积测量的。
DeepCAT的性能评估
可以想象,特定的癌症类型可能与某些人类白细胞抗原等位基因有关,而DeepCAT只是在学习HLA相关的序列特征。为了排除这种情况,出国看病网测试了三个最普遍的等位基因:HLA-A * 02:01,HLA-B * 07:02和HLA-C * 07:01。TCGA样品的HLA等位基因频率估计是从先前的研究中获得的。对于每个等位基因,出国看病网将训练数据分为携带至少一个等位基因拷贝的患者的TCR或非携带者的TCR。出国看病网仅使用来自非携带者的TCR训练了DeepCAT框架内的CNN模型,并使用相同的模型来预测源自等位基因携带者的TCR的癌症关联可能性。如果DeepCAT的性能归因于HLA共享,那么来自等位基因携带者的caTCR预计将降低预测准确性,因为训练数据未涵盖其特征。相反,出国看病网对所有测试的等位基因均观察到了相同的准确性,这表明caTCR的DeepCAT预测依赖于共享HLA等位基因以外的特征。
为了测试DeepCAT是否正确预测了针对未见肿瘤抗原的caTCR,出国看病网将癌症特异性TCR与非癌症TCR混合以进行验证。该分析使用了两个最近的具有已知特异性的主要组织相容性复合物I类多聚体分选的T细胞的最新数据集。第一个由特异于来自新抗原,癌症相关抗原和致癌病毒的268个表位的四聚体分选的TCR组成。第二个数据集由来自外周血单核细胞样品的按流分类的单个T细胞组成,其中使用44种癌症或非癌抗原决定簇的条形码右旋体对T细胞进行分选。因为第一个数据集中的大多数表位与癌症相关,所以出国看病网使用从独立健康供体收集的TCR作为对照。对于10x基因组学数据集,使用非致癌病毒特有的TCR作为对照。DeepCAT被盲目地用于预测每个TCR的癌症关联概率。与对照序列或流感特异性TCR相比,DeepCAT能够区分不同抗原类别的caCDR3 。大多数AUC值在0.5到0.8之间。可以预期得到此结果,因为训练精度约为AUC = 0.8。对于多重比较,出国看病网观察到更长的CDR3具有更高的预测准确性,这可能与观察到更长的CDR3在癌症患者中富集且可能与癌症相关的观察有关。为了检查潜在的数据泄漏,出国看病网检查了两个数据集的训练数据中的重叠序列。总共,出国看病网发现了0和112个CDR3 。和10x数据集。因为出国看病网使用交叉验证来训练模型,所以这么少的序列不太可能使预测产生偏差。
癌症评分定义为TCR曲目索引
根据以上结果,出国看病网得出三个结论:DeepCAT预测独立于HLA等位基因;DeepCAT能够预测针对训练数据中不存在的癌症抗原的特异性TCR;尽管DeepCAT已接受TIL和PBMC TCR的培训,但DeepCAT可以区分从血液中分类的癌症特异性TCR。因为癌症患者的外周血库中含有相当一部分的肿瘤反应性T细胞,出国看病网推测DeepCAT可用于非侵入性癌症检测。出国看病网对一个库中TCR的DeepCAT预测取平均值,并引入了一个额外的指标,即癌症得分,以通过平均每个输入TCR的输出癌症关联概率来测量caTCR的含量。使用平均数而不是中位数是基于caTCR概率的分布,其中离群值是真实的caTCR,而不是曲目中的噪声。癌症评分是免疫组库,这与那些也被用于分析在临床研究中。出国看病网调查了9个数量,包括癌症评分和8个多样性指数,并观察到癌症评分是唯一不受测序深度影响的度量,测序深度是TCR测序数据分析中已知的混淆变量。这是理想的质量,因为它可以直接比较不同TCR-seq样本队列中的癌症评分,这种分析不适用于其他指标。因此,出国看病网决定探索使用出国看病网的癌症评分作为诊断标准的可行性。
评估癌症评分作为癌症预测因子
尽管对单个caTCR的预测能力并非始终很高,但按癌症评分汇总一个库中的多个TCR可能会获得更好的性能。因此,出国看病网估算了来自13项临床研究的血液TCR-seq样本的分数,其中包括8个队列的早期或晚期癌症患者和5个队列的健康或病毒感染患者。保守起见,出国看病网避免了与致癌病毒相关的癌症类型,因为这些样本可能与DeepCAT中较高的致癌病毒信号混淆。所有TCR-seq数据均使用Adaptive Biotechnologies的immunoSEQ平台生成。出国看病网使用队列,年龄匹配的献血者作为对照。在此范围内,出国看病网观察到年龄与癌症评分之间没有关联,这表明尽管队列之间存在年龄差异,但使用供体样本作为对照是合法的。出国看病网观察到所有癌症队列中治疗前收集的PBMC样本得分均较高。出国看病网还纳入了五个独立的TIL队列作为验证,并观察到比PBMC样本更高的分数,这与肿瘤微环境中癌症相关T细胞的富集一致。相比之下,除了HCMV感染个体略有增加外,所有非癌症人群均值均值或更低,以均值比衡量。作为一种预测性生物标志物,乳腺癌,胰腺癌,卵巢癌,结肠直肠癌和黑色素瘤的癌症评分达到近乎完美的准确性。另一方面,胶质母细胞瘤,膀胱癌和肺癌队列的AUC较低,AUC在0.71至0.83之间。这种观察是出乎意料的,至少对于肺癌患者而言,肺TIL样本的AUC值较高。出国看病网注意到,所有的三个同伙从选择免疫疗法,谁经历了多个预处理,包括新辅助化疗或手术后化疗/放疗。这些细胞毒性疗法可能会耗尽免疫系统中的增殖淋巴细胞,降低血液库中效应T细胞的含量,并改变估计值。相反,未经治疗而收集的血液样本始终产生较高的癌症评分。
因为适应性免疫库是一个动态系统,所以出国看病网使用健康捐献者的PBMC样本评估了随机波动如何影响癌症评分。在所检查的三个人中,出国看病网观察到分数的纵向变化很小,所有个体的SD均<0.015。健康捐献者的平均得分为0.193,未接受治疗的癌症患者的平均得分为0.302,比健康捐献者高3个标准差。 这些结果表明,由于免疫库中的随机噪声,健康个体的癌症评分可能不及癌症患者高。
出国看病网还注意到,DeepCAT中五个长度模型的caTCR概率分布不相同。此外,患有癌症的患者和健康的供体具有不同的CDR3长度分布。为了评估这种差异是否影响癌症评分的表现,出国看病网实施了计算机模拟实验,以模拟100位“癌症患者”和100位“健康捐献者”。假设患者和供体的TCR是从相同的TCR序列库中采样的,出国看病网测试了是否仅由于CDR3长度差异就可能在患者中观察到更高的评分。相反,癌症患者的模拟癌症评分并未更高,这表明出国看病网在患者队列中观察到了更高的评分。不是CDR3长度分布差异的假象。
DeepCAT技术剖析以评估癌症评分的预测能力
将癌症评分确定为潜在的癌症预测指标后,出国看病网接下来对可能有助于其预测能力的技术因素进行了调查。DeepCAT包含两个关键组件:深度CNN模型和使用PCA编码的功能构造。为了了解CNN如何促进癌症评分的表现,出国看病网将其替换为非深度学习方法Adaptive Boosting,这是将弱分类器组合为强分类器的最佳传统方法之一。为了研究特征构建的重要性,出国看病网探索了两种替代输入类型:544-AA生化特征的原始数据和PCA编码的特征。出国看病网检查了机器学习和输入法的所有四种组合的预测准确性:CNN + PCA,AdaBoost + PCA,CNN + raw,以及AdaBoost + raw。
未接受过治疗的PBMC队列和健康捐献者,这表明CNN模型构建具有更高复杂度的非线性映射的能力优于传统方法。PCA编码仅略微提高了AdaBoost的性能,但CNN的AUC却提高了6%。该结果表明,输入数据的正确特征构造可以进一步提高CNN模型的性能。该计算机模拟实验的结果可能为深入研究基因组数据的深层神经网络的发展提供信息,因为编码蛋白质和DNA序列并非无关紧要,并且通常是此类分析所必需的。
评估癌症评分作为早期发现标准
上述分析中的乳腺癌队列包括16例I或II期患者,表明即使在早期阶段,外周TCR谱表的癌症相关改变也足以用于疾病诊断。为了验证这一观察结果,出国看病网从四个未接受过治疗的早期癌症患者的独立队列中收集了血液样本,这些患者包括肾癌,卵巢癌,胰腺癌和肺癌。目前,尚无有效的肾癌,卵巢癌或胰腺癌早期检测方法,而且大多数早期病例是在检查过程中偶然诊断出的其他主要症状。使用与上述相同的商业渠道对这些样品进行TCR谱表测序。为了排除仅使用一个对照队列的潜在偏倚,出国看病网将另外四个非癌症患者队列合并为健康对照。与对照样品相比,所有癌症队列的得分都更高,卵巢癌更严重的患者得分更高。该观察结果可能是由于肿瘤进展期间抗原释放增加所致。与难治性肺癌样本相比,未接受治疗的肺癌患者的AUC达到0.95,因此支持了出国看病网的假设,即细胞毒性预处理可降低癌症评分。值得注意的是,出国看病网还观察到了显着趋势。该结果表明,尽管需要更大的队列来证实这一发现,但癌症评分可用于区分良性和恶性病变。使用分数作为预测指标,出国看病网观察到了所有测试的癌症类型的高AUC。在98%的特异性下,所有早期组合样品的灵敏度达到73%,优于当前的基于血液的生物标志物,包括CA-153,CA-125和PSA。它甚至达到了与最近使用无细胞DNA甲基化或循环肿瘤DNA突变的方法相同甚至更高的准确性。为了评估普通人群中癌症评分的效用,出国看病网还使用计算机模拟,估计了各种临界值时的阳性预测值和阴性预测值,癌症的完全患病率为3.66%。在截止值= 0.27时,出国看病网观察到PPV为0.447±0.076和NPV为0.986±0.005。这些数字是根据最近的评论。
使用mRNA TCR-seq队列独立验证癌症评分
以上所有分析均基于Adaptive Biotechnologies生产的TCR-seq数据集,该数据集使用基因组DNA绘制CDR3区域。为了排除单个平台可能引起的未知偏差,出国看病网使用mRNA代替gDNA 对在不同平台上生成的TCR-seq样本进行了独立验证。出国看病网收集了三个PBMC样本队列,包括17例转移性肾细胞癌患者,11例神经胶质瘤患者和225名健康捐赠者。与基于DNA的方法相似,在对照队列中未观察到基于RNA的癌症评分与文库大小或患者年龄的关联。出国看病网重现了观察结果,即癌症患者的癌症评分通常比对照组高,尽管健康供体的基线与基于DNA的方法不同。对于肾细胞癌和神经胶质瘤队列,出国看病网观察到的AUC分别为0.84和0.87。预期降低的预测能力是因为这些患者中有一部分在采血之前接受了多种细胞毒性疗法。尽管如此,出国看病网不能排除通过基于RNA的方法进行的不同T细胞克隆型定量可能改变结果的可能性。总之,这些结果独立地验证了癌症评分将癌症患者与健康个体区分开的能力。所有样本的癌症评分估计都可以作为补充数据集使用。
非癌症慢性炎症对癌症评分的影响
慢性炎症在普通人群中很常见,包括慢性病毒感染,自身免疫性疾病,癌症等。为研究非癌性慢性炎症状况如何影响癌症评分,出国看病网进一步分析了包括HCMV感染在内的三类队列人群,类风湿关节炎和多发性硬化症。这三个队列均包含患者样品和健康对照。但是,与HCMV队列不同,在出国看病网先前的分析中,其他两个样本无法与其他样本进行比较,因为RA队列使用了按流分选的CD8 + T细胞和MS队列使用带有mRNA的5'RACE [互补DNA末端的快速扩增]进行了分析。不同的TCR数据生成过程可能会在癌症评分估计中产生系统的差异。在所有三个队列中,炎症性疾病患者的癌症评分均增加,但这种增加并未达到癌症患者所见的程度。总之,预先存在的慢性炎症性疾病会稍微增加癌症评分,当将癌症评分应用于患有此类疾病的个体时,可能会导致诊断特异性降低。
在这项工作中,出国看病网设计了一个计算框架来衡量血液库中caTCR的含量。出国看病网从多种癌症的TIL序列以及有或没有HCMV感染的健康供体中获得训练数据,以开发一种深度学习方法来预测caTCR,并使用MHC-1多聚体分类的T细胞以已知的特异性验证了该预测。由于CDR3区的高度可变性,因此无法预料到这种可预测性。一种可能的解释是,肿瘤微环境的质量会对具有某些生化特征的TCR施加选择性压力。例如,已知癌细胞的酸中毒增加可能会改变蛋白质结构中组氨酸的构象。与这个想法一致,出国看病网观察到他在TIL序列中的使用率是从健康供体获得的TCR的1.7倍富集。肿瘤组织中存在的T细胞也可能对独特的共享抗原具有特异性,而TCR中某些AA的使用偏向。当这些T细胞重新进入循环时可以被检测到。此外,最近的研究表明,嵌入微生物同源性会改变T细胞对选定的新抗原靶标的启动效力,这也可能会影响TCR在肿瘤微环境中的使用。因此,出国看病网推测血液TCR库中可再现的癌症信号可能是由多种保守的肿瘤-免疫相互作用机制导致的,这些机制导致对浸润性T细胞的生化特征的选择有偏差。
考虑到免疫系统具有在健康条件下清除转化细胞的能力,人们担心DeepCAT是否能拾取这些信号并以非特异性方式报告癌症。出国看病网观察到,所有健康供体队列的癌症评分通常都低于癌症患者。抽血时,供体中可能存在恶变前细胞,但这些单元格的数量预计会很低;因此,不会诊断出“癌症”。TCR谱表会识别并消除恶变前细胞,但是这种反应是短暂的,不会持续增加癌症评分。一个相关的问题如下:DeepCAT最早诊断癌症的时间是几点?T细胞库在抗原呈递和清除的驱动下处于恒定更新状态。有效消除恶性前细胞将导致效应器记忆T细胞分化和组织归巢,这一过程中大多数效应器T细胞将从循环中被移除。但是,当免疫系统和癌症达到“平衡”或“逃逸”状态时,与癌症相关的T细胞将不断产生并在耗尽后积累而不是凋亡。出国看病网推测这是可以通过TCR指令库潜在诊断出癌症的阶段。与此相符的是,最近一项使用单细胞RNA-seq调查早期结直肠癌患者的研究证实了血液中存在癌症相关的T细胞,该T细胞表达了假定的疲劳标记物,其编程为死亡1和淋巴细胞活化。基因3。该观察结果可为早期恶性肿瘤患者癌症评分升高提供依据。
为了通过外围TCR曲目库进行全癌诊断,出国看病网的研究存在一些局限性。首先,它不能确定起源组织,这是基于液体活检的检测方法的普遍局限性。由于不同的癌症会表现出组织特异性抗原,因此可以预期,未来的caTCR数据集和机器学习方法的发展将有可能克服这一问题。或者,可以使用TCR群集,只要有足够的涵盖不同疾病的参考样本,就可以使用已知癌症类型的现有患者的TCR-seq样本预测新患者的癌症定位。其次,由于在诊断无症状早期癌症方面的临床挑战,所有验证人群相对较小。将来将需要收集更多样本来确定癌症评分的预测准确性。第三,出国看病网仅使用TCRβ链来执行模型训练,caTCR预测和癌症评分估计,因为大多数数据集都没有成对的αβ链信息。结合使用两个链进行模型训练和预测,可以进一步提高准确性。最后,出国看病网的分析表明,慢性炎症会影响癌症评分的估计。但是,这一警告 通过详尽检查每位患者的病史,以排除慢性病毒感染和常见的自身免疫性疾病,可以缓解这种情况。最后,尽管出国看病网的方法对多种癌症类型均具有较高的预测能力,但其在一般人群中的表现仍未经测试,只有在使用大量前瞻性临床队列的情况下才能探索整个临床应用。
与传统方法相比,出国看病网的方法提供了一些进步。出国看病网证明了与癌症相关的T细胞进行抗原独立的从头预测的可行性,并使用流分类的癌症特异性TCR数据反复验证了该方法。这一发现可能有助于在未来的癌症免疫治疗中优先处理与治疗相关的TCR受体。这项工作中引入的癌症评分可以衡量免疫组库中的caTCR,并将有癌症的患者与没有癌症的患者区分开。值得注意的是,尽管使用平均caTCR概率来计算癌症评分达到了令人满意的性能,但这种方法仍然是可以改进以提高预测能力的首次尝试。此外,出国看病网证明了即使对于早期恶性肿瘤,癌症评分也能达到较高的预测准确性。除了更高的准确性外,癌症评分不依赖于预先选择的遗传或表观遗传学特征,因此比基于cfDNA的方法更具通用性。此外,这种方法仅需要少量外周血中的T细胞,数据生成成本不到200美元,这比大多数筛查测试都要低,这使其成为竞争性诊断选择。值得注意的是,对于不同的早期癌症类型,截止值0.26的敏感性高度一致,这表明使用统一的癌症评分阈值进行疾病检测的可行性。癌症评分目前不打算替代当前的诊断方法。相反,应该做出进一步的努力来探索是否将癌症评分与现有的筛查方式。出国看病网先前已经证明,TRUST具有较高的灵敏度,可用于浅覆盖RNA-seq样品中的TCR,与真正阳性的TCR-seq数据相比,具有很高的特异性。因为片段化的CDR3不是合适的克隆标记,所以根据IMGT命名法,出国看病网仅使用完整序列,以可变基因中的最后一个半胱氨酸开始,并以连接基因中FGXG基序中的苯丙氨酸结尾。 。排除了在C和F之间含有终止密码子的非生产性序列。TIL库中超过80%的TCR对肿瘤没有反应。为了删除在没有癌症的个体中也发现的公共TCR,出国看病网通过在一大批健康个体中从每个TCR-seq样本中收集了20,000个最丰富的CDR3,从而生成了参考数据集。如果在G中找到TRUST调用中的任何CDR3 ,则将其删除。预期产生的43,702条独特的β链CDR3序列是非公开的且与癌症相关,可用于训练和评估CNN模型。健康的个人队列是艾默生的第一批等。2017研究。
在同一项研究中,出国看病网使用了来自120位年轻健康供体的第二批TCR库数据来构建非癌症CDR3控制序列。这两个批次包含独立的个体,因此,出国看病网不希望第二批次中的序列以第一批次为对照影响下游分析。为了平衡两个训练课程的样本量,出国看病网不使用所有数据,而是从第二批样本中随机抽取了50个人,并选择了克隆频率≥最小样本频率4倍的TCR。这种策略是为了确保选择效应子/记忆T细胞群并排除大多数幼稚的T细胞。选定的CDR3合并在一起,并且出国看病网使用iSMART将这些序列聚类以选择抗原特异性TCR基团。此步骤共鉴定出59,851个抗原特异性非癌症TCR。在整个工作过程中,出国看病网始终将iSMART应用于模式识别或癌症评分估计之前的TCR曲目库测序数据。
PCA编码。当前的AA指数数据库记录了以前文献中的544个生化指数,可以用作对AA的功能和结构影响的替代。出国看病网排除了某些AA没有值的13个功能。将Z变换应用于其余531个索引中的每个索引,以将它们标准化为相同的比例。对所得数据集执行PCA,以获得20 x 20的评分矩阵。前15个得分解释了超过95%的总数据变化。对于每个AA,出国看病网使用载体PC1至PC15表示其生化特征。值得注意的是,PCA编码层已冻结,并且在模型训练期间未更新。由于原始的544个矢量非常大,因此PCA可以用作降维,以限制卷积滤波器中的参数数量并防止过度拟合。
CNN的规范。对于长度为 L, L = 12、13,…,16的CDR3,输入层由尺寸为15 x L的图像组成。然后将输入张量发送给具有八个15×2滤波器的卷积层,随后应用整流线性单位激活和宽度为2且步幅为1的最大合并层。在滤波器长度等于图像宽度的情况下,DeepCAT沿CDR3序列执行一维卷积。在第二个卷积层上应用16个1×2滤镜,然后再添加相同的附加ReLU和合并层。在任何一个卷积层中都不允许填充。在卷积层的顶部添加了一个具有10个单位的密集层,最后的输出层应用了softmax函数来导出与类别标签有关的概率。
存在将具有不同长度的序列组合到一个模型中的方法。一种方法是零填充,即在较短序列的末尾添加零以强制执行相同的长度。这种方法通常用于单热编码,其中非字母的位置自然会用零填充,但可能不适用于PCA编码,因为添加的零会改变输入数据的分布。另一个解决方案是递归神经网络,通常在语言处理任务中使用。但是,RNN模型通常经过优化以分析文本或单词的长序列,而CDR3区非常短。此外,RNN模型在同一层中引入了对神经元的依赖性,这会增加网络的复杂性,并会带来未知的过度拟合风险。基于这些考虑,出国看病网选择使用带有少量过滤器的非常简单的CNN模型,这在出国看病网的下游分析中给出了令人满意的结果。
模型训练和评估。癌症和非癌症。出国看病网进行了20次交叉验证,以进行模型训练和评估。对于每次运行,出国看病网随机选择三分之二的癌症和非癌症CDR3,将其分成不同的长度,并以0.001的学习率对这五个模型中的每个模型进行20,000步训练。40%的随机辍学应用于密集层,以避免过度拟合。然后,使用剩余的三分之一数据评估输出模型,以测试准确性并评估每个模型的AUC。每次运行所得的AUC值非常相似,出国看病网使用随机选择的20,000个癌症和40,000个非癌症样本作为下游分析的最终模型,进行了额外的训练。
用TCR资料估计癌症评分。在这项工作中,所有TCR曲目库测序数据均由Adaptive BiotechnologiesimmunoSEQ平台生成。从immuneACCESS下载原始数据后,出国看病网首先从CDR3 AA序列中删除了以下类型的低质量调用:序列长度<10或> 24;序列包含非标准字符;序列不是从半胱氨酸开始或不是以苯丙氨酸结束;可变基因基因座尚未解决。删除低质量的呼叫后,其余的CDR3按克隆型频率递减排列,并选择以下列进行聚类分析:CDR3 AA,可变基因和克隆型频率。对于每个样本,出国看病网选择了前10,000个序列。如果数据包含少于10,000个CDR3,则选择所有序列。这里,出国看病网实施了相同数量的顶部CDR3,而不是根据频率进行选择,以提高不同数据集之间的可比性。10,000个序列的临界值设置为包括大多数可能是效应细胞/记忆细胞的高丰度克隆型,而不包括低频幼稚细胞。包含幼稚的T细胞会导致噪音增加,因为它们可能是健康个体中灭活的肿瘤特异性T细胞。
出国看病网先前开发了iSMART,可通过基于序列相似性对CDR3进行聚类来检测抗原特异性T细胞组。抗原特异性是基于研究的结果,表明具有相似CDR3基序的T细胞可能识别相同的抗原。简而言之,iSMART使用BLOSUM62矩阵对高度相似的CDR3序列进行成对比对,并基于预选的截止值报告TCR簇。该方法同时使用了CDR3序列和可变基因信息,以确保高特异性。iSMART比以前的方法具有更高的特异性,使用对不同抗原具有特异性的TCR序列作为基准。在这项工作中,出国看病网始终如一地在iSMART中应用默认参数来处理所有TCR曲目库测序数据。在实践中,出国看病网发现在癌症概率估计之前应用iSMART聚类可以提高信噪比,这是因为血液中所有抗原经历的TCR可能带有相似的序列基序,而朴素的TCR更加随机且不能聚类。
然后将训练有素的DeepCAT分类器应用于处理后的TCR数据,以获得每个CDR3序列的概率估计,而无需更改任何参数。最终癌症得分是所有癌症关联概率的平均值。TCR簇可能包含几个具有相同AA序列的CDR3。这是由于DNA密码子简并为蛋白质,因此选择了不同的TCR来拮抗相同的抗原。因此,出国看病网将它们视为不同的观察结果。从理论上讲,有多种方法可以将模型与非随机预测结合起来以提高性能,这一概念被称为集成分类器。在出国看病网的分析中,出国看病网旨在使这种组合尽可能简单,而无需引入其他参数来防止过度拟合。因此,出国看病网使用平均概率作为输出。也可以使用其他汇总统计信息,例如中位数。在实践中,出国看病网选择临时样本均值来分析独立的TCR-seq样本,并且避免在事后使用其他统计数据以避免过度拟合。没有应用DeepCAT输出的癌症概率的分界值来将TCR分配给癌症或非癌症组,因为任意选择的分界值也可能带来不必要的过度拟合风险。
不同特征编码和机器学习方法的结合
AdaBoost具有原始功能。当前的AA指数数据库记录了544种来自先前蛋白质结构研究的生化指数,可用作对AA的功能和结构影响的替代物。从训练数据中,出国看病网选择了长度 L在12至16 AA之间的CDR3序列。整个功能集是所有AA的功能的并集。出国看病网用 n L表示癌症CDR3的长度为 L的CDR3的数目,用 k L表示来自VDJdb的非癌症CDR3的数目。
出国看病网首先对来自癌症和非癌症TCR的所有序列进行了50%的二次抽样,并将剩下的一半数据用于交叉验证。对于每个功能,出国看病网将0.5 n L的癌症观察结果与0.5 k L的非癌观察结果进行了比较。如果倍数变化小于1.1,则删除了此功能。令S表示剩余的特征数。在上述设置中,出国看病网共有0.5×个CDR3序列和S特征,并带有已知的样本标签。让Y表示长度为0.5×的样本标签矢量,X表示维数为0.5×乘以S的特征矩阵。根据出国看病网的分析,出国看病网确定单个特征的预测能力很弱。因此,出国看病网应用了自适应提升算法,这是一种集成学习方法,能够将弱分类器聚合为更强的分类器。
使用R包JOUSBoost中的adaboost函数完成了模型训练,增强了50轮,树深为10。出国看病网根据最小化训练周期和复杂性的标准选择了参数分类树,同时最大程度地减少交叉验证错误。通过将训练有素的CDR3长度L分类器应用于具有已知分类标签的独立验证数据,可以计算出交叉验证错误。出国看病网进行了10次二次抽样,并选择了交叉验证值最高的样本。对L = 12、13、15和16 重复上述过程,但对L不重复= 14,其中应用了四重交叉验证,因为出国看病网发现此设置实现了较小的交叉验证错误。因此,总共训练了五个分类器,并将其表示为T 12-16。出国看病网采用了DCR的方法来定义癌症得分,方法与DeepCAT相同。
AdaBoost采用PCA编码。使用544 x 20 AA指数矩阵,出国看病网在删除缺失值之后执行了PCA,并选择了前15个PC。通过使用15台PC来构建集成树分类器,出国看病网修改了AdaBoost方法。最终癌症得分的定义与DeepCAT相同。
具有原始功能的CNN。出国看病网实现了与DeepCAT相同的CNN网络,并具有相同数量的卷积层和每层相同数量的过滤器。出国看病网使用531个不包含任何缺失值的特征对每个AA进行了编码。第一CNN层的过滤器尺寸为531x2。使用与DeepCAT相同的训练数据训练了五个模型,用于 L = 12、13,…,16的CDR3。对于给定的TCR库,将癌症得分计算为模型预测的平均值。
具有PCA编码的CNN。这是DeepCAT方法中描述的用于caTCR从头预测的原始DeepCAT方法。
使用来自特定HLA等位基因非携带者的TCR训练其他CNN模型
为了证明HLA等位基因不会影响DeepCAT的预测,出国看病网使用DeepCAT的相同框架训练了其他模型,以测试三个常见的HLA等位基因:A2,B7和C7。对于每个等位基因,出国看病网从不携带等位基因的个体中选择TCR作为肿瘤训练数据,并从携带等位基因的个体中选择TCR作为肿瘤测试数据。三个等位基因的序列数如下:A2,B7和C7。为了训练模型,出国看病网输入了肿瘤训练数据和来自健康供体的40,000个训练控制TCR,并进行了五次交叉验证,并训练了20,000个步骤以优化参数。使用每个训练TCR与对照TCR的预测概率来生成ROC曲线。然后将CNN模型应用于包含肿瘤测试数据和其他20,000个对照TCR序列的评估数据集。使用AUC值测量测试TCR的预测准确性,并使用ROC曲线进行可视化。
使用四聚体或右聚体分类的TCR数据对DeepCAT进行独立验证
队列和10x Genomics单细胞队列包含从供体PBMC样品中获得的按流分类的抗原特异性T细胞。第一组使用带条形码的四聚体,携带来自癌症,病毒或自身蛋白的268个表位。第二个队列应用了右旋聚合物分类,并从癌症或病毒靶标中获得了对44种常见表位具有特异性的TCR。出国看病网直接应用DeepCAT预测长度为12至16的每个CDR3的癌症关联可能性。将结果与对照序列进行比较。对于第一个队列,为了获得真阴性序列,出国看病网从一些专家的研究中随机选择了10个其他样本。2017第2批研究与120位年轻的健康供体一起,不包括用于训练DeepCAT的50个样品,并进行了相同的聚类分析以获取抗原特异性TCR组。iSMART总共将1761个TCR归类为额外的非癌症序列。为了避免数据泄漏,出国看病网删除了与训练数据重叠的序列,并获得了900个CDR3作为对照。对于第二个队列,出国看病网直接使用10x Genomics数据集中的流感病毒特有的右旋体排序的TCR序列作为非癌症对照。在两个验证实验中,DeepCAT都盲目地应用于TCR序列,其预测准确度通过ROC曲线和AUC值来衡量。
评估癌症分数的计算机模拟,用于评估不同的CDR3长度分布
CDR3长度分布使用来自四个控制群组,并从与癌症。出国看病网进行了计算机模拟,以测试这些差异如何影响癌症评分估算,这是基于零假设:来自患有癌症和未患有癌症的个体的TCR来自相同的TCR序列库;因此,caTCR概率没有“基线”差异。具体来说,出国看病网模拟了100位“癌症患者”和100位“正常个体”。每个人有500个TCR,其长度遵循caTCR概率的分布,并且对于癌症或正常人,其CDR3长度不同。使用R中的多项式采样器对每个CDR3长度的数量进行采样。对于每个个体,出国看病网对长度L的数量进行采样遵循健康供体的caTCR长度分布的CDR3。例如,如果患有癌症受试者1的个体具有72个长度为16的序列,出国看病网将从根据长度16 CDR3估计的caTCR概率中抽样72个数字。在原假设下,出国看病网对癌症患者和健康对照者使用了相同的caTCR概率。
根据TCR库数据和ROC分析对DeepCAT预测进行后处理
由于每组TCR-seq样本的设计都不同,因此出国看病网采用了共识方法来选择PBMC和TIL样本,以最大程度地提高可比性。黄热病病毒的队列在健康志愿者接种疫苗后的第1天和第14天采集了样本,出国看病网使用第14天的样本是因为它们被认为带有YFV感染的特征。对于纵向抽样的癌症人群出国看病网在可能的最早时间点使用了TIL或PBMC样品,如果没有预处理样品,则该时间点是在免疫治疗之前或在第一个治疗周期之后。2017年队列由666人组成,这些人进一步分为HCMV +和HCMV-供体。后者用作正常对照。出国看病网进一步将年龄小于35岁的患者排除在外,以匹配大多数癌症患者的年龄。具有低总模板的库也被排除在外,因为它们可能是低质量的样本,其gDNA不足。
出国看病网计算了每个患病队列与对照组之间的癌症评分值的中位数差异,使用Wilcoxon秩和检验评估了统计显着性,并使用Benjamini-Hochberg程序校正了P值,其中临界错误发现率= 0.05。为了评估癌症的分数的预测功率,出国看病网选择与样本大小的每个队列,相比于年龄匹配的健康供体的,和ROC曲线下面积来计算。
gDNA分离和免疫库测序
按照制造商的指南,使用DNeasy血液和组织试剂盒从50μlRCC单核细胞和200μl卵巢癌全血中分离gDNA。使用NanoDrop 2000分光光度计测量gDNA浓度。通过测量260-280 nm的吸光度比来确定gDNA的纯度。最佳纯度预期在1.7至2.0的范围内。使用琼脂糖凝胶电泳评估gDNA样品的完整性,以寻找降解的证据。预期适当质量的gDNA主要在琼脂糖凝胶上迁移超过10 kb。所有样品均通过了DNA纯度和完整性质量控制。将20个gDNA样品发送至Adaptive Biotechnologies,以在调查测序深度使用immunoSEQ进行靶向的TCRβ链库全序列测序。用immunoSEQ Analyzer处理原始TCR读数,以进行CDR3组装,可变/连接基因调用和克隆频率估计。
其他健康捐赠者控制队列的描述
对于图4中的分析,为了测试癌症评分是否可以可重现地区分癌症患者和健康个体,出国看病网从公共领域的PBMC样本中收集了TCR-seq数据。2018年。在最后一个队列中,测序了33个个体,由于覆盖率低而被剔除了4个。表S2中提供了所有供者群组的PubMed ID。
在计算机模拟中估算PPV和NPV
监测,流行病学和最终结果计划数据库报告说,所有癌症合并后的总患病率为3.66%。出国看病网采样300个癌症得分总数为522分的分数组合5个健康供体组群,包括HCMV感染者。然后,出国看病网用早期癌症样本中的得分代替了3.66%的人口。混合载体包含代表总体人群预期分布的癌症评分。PPV的估算值是:在给定的癌症评分标准下,真正的癌症患者人数除以总阳性求诊次数。NPV是癌症得分低于临界值的真正阴性个体的比例。出国看病网以0.21的增量扫描了从0.24到0.30的截止范围。重复上述分析1000次以估计统计不确定性。
约翰霍普金斯大学肺癌队列的描述
患有早期肺癌的患者是从约翰·霍普金斯大学医院招募的。该队列包括11例I和II期癌症患者和4例III期癌症患者。在进行任何处理之前,先采集外周血样品,并通过Adaptive Biotechnologies使用上述平台生成TCR-seq数据。
基于RNA的iRepertoire群组的描述和分析
出国看病网从iRepertoire获得了基于mRNA的TCR-seq数据,包括17例转移性RCC患者和健康的捐献者队列,其中包含225名无癌症病史的患者。使用iRepertoire平台对所有个体的外周血样本进行了分析。没有进行HCMV血清分型,预期该队列包含有或没有HCMV感染的个体。值得注意的是,该平台使用了TCRβ链转录物的mRNA逆转录的cDNA,采用了与Adaptive Biotechnologies不同的定量方法。从GSE79338获得了iRepertoire神经胶质瘤样本。该队列包含15个人,其中14人为神经胶质瘤患者和1名健康对照者。出国看病网使用来自神经胶质瘤患者的血液TCR-seq数据进行癌症评分推断。对于每个样品,出国看病网通过减少读取次数来对TCR克隆进行排序,并选择了前10,000个序列。对每个选定的TCR-seq样本执行iSMART,以获得TCR簇。
|