了解最新你所在地址试管婴儿费用试管婴儿中介公司试管婴儿资讯以及其它试管相关技术。
精准前沿丨cfDNA低覆盖度WGS测序中的全基因组突变特征|
试管需知 凡是以任何理由向无故收费的机构均有欺诈嫌疑,请保持警惕!建议多家咨询对比,寻找有通过身份证+执照验证的招聘信息。切勿个人与个人合作。
会员级别: 免费会员(到期时间:终身)
置顶情况: 未置顶
公司名称: 神州中泰国际医疗集团
认证情况:

未上传身份证认证 未上传身份证认证

未上传营业执照认证 未上传营业执照认证

咨询电话:
18908074581
联系微信: 18908074581
  • 想要入驻中泰忧孕网站可以点击右侧立即入驻 →


本期《精准前沿》栏目分享美国MSK癌症研究中心研究团队发表在Nature Communications(IF=17.694)上的一篇研究[1],研究开发了一种名为Pointy的方法,该方法能够从低覆盖度血浆WGS(深度0.3-1.5x)测序数据中分析全基因组的突变特征,通过对样本进行单碱基替换(SBS)的特征分析,并结合机器学习的方法进行癌症检测。

研究背景

液体活检技术在癌症无创早期筛查、预后及治疗监测中的应用越来越广泛。癌症样本的血浆样品中循环肿瘤DNA(ctDNA)的相关特征,包括点突变、拷贝数变异及甲基化模式等,可以反应癌症的病理及类型;血浆中的其它特征可能与游离DNA(cfDNA)有关,包括cfDNA片段长度,片段碎裂模式,核小体印迹等,可以反应癌症细胞的生物学特性;这些特征都可用于癌症的早期检测。

突变事件在个体整个生命周期过程中是不断累积的。体细胞基因组中突变事件的积累是同时由于内源性过程(如老化)和外源性暴露(如吸烟、紫外线)导致的。由于细胞破裂时会向循环系统中释放cfDNA片段,因此通过对血浆中cfDNA的检测可能反映出体细胞相关的突变特征。传统的体细胞突变特征检测方法中,主要是基于中等深度的WGS测序对癌症和非癌症样本的突变信号进行检测。在低深度的WGS数据中,体细胞和胚系突变仅通过等位基因分数难以进行区分,并且由于测序深度过低以及测序错误等因素,导致基于单个突变位点等位基因分数的检测方法在癌症检测中无效。即使是在高深度的WGS测序条件下,当ctDNA分数过低时,由于肿瘤细胞中低等位基因突变分数的长尾效应,该突变DNA可能只会被检测到一条突变read。

本研究中提出了一种名为Pointy的方法,可以从低覆盖度血浆WGS(LP-WGS)测序数据中分析全基因组的突变特征,对样本进行单碱基替换(SBS)的特征分析,并结合机器学习的方法进行癌症检测。本研究采用各种方法来减轻技术和生物噪音,在癌症和非癌症样本中识别突变特征,使得基于突变特征的早期癌症检测方法成为可能。

研究设计

本研究中采用的队列都来源于已发表的独立数据集,其中PGDX队列作为发现队列,纳入的样本包括:四期结直肠癌患者(n=16)及健康对照样本(n=19),其中癌症患者多数具有错配修复缺陷(MMR-D)和/或微卫星不稳定性(MSI);DELFI队列作为验证队列,纳入的样本包括:I-IV期NSCLC患者(n=37),I-III期乳腺癌患者(n=48),I-IV期结直肠癌患者(n=27),I、III、IV期卵巢癌患者(n=26),0-IV期胃癌患者(n=27),I-III期胰腺癌患者(n=34)以及206例健康对照样本。

整体研究思路大体可以分为以下4个步骤:

1. 通过常规突变检测流程检测突变,包括:Trimmomatic修剪fastq文件;bwa比对;picard DownsampleSam降采样;samtools mpileup突变检测;仅保留碱基质量 30,比对质量 60,以及R1和R2上同时存在的点突变;进一步过滤SNP,即去除dbsnp数据库中的SNP,本研究中提出假设认为这些SNP主要与衰老特征相关,去除这些SNP后,能提升癌症检测的精度。基于点突变的类型(C A, C G, C T, T A, T C, T G)及紧邻5 和3 的碱基,构成96种三碱基突变特征,分别统计96种突变特征出现的次数。

2. GC校正:由于PCR过程引入的GC偏好,会影响覆盖度的均一性,基于此,需进行GC校正。通过GAM方法对所有样本的GCbias矩阵进行拟合得到每种GC条件下校正后的覆盖度,基于该覆盖度,对每个样本的突变reads进行校正,进而获得每个样本校正后的突变特征值。

3. SBS特征拟合:基于突变特征矩阵以及参考的SBS频率矩阵,通过非负矩阵分解(NMF)方法进行SBS特征的拟合。

4. 机器学习构建癌症分类模型:对校正后的突变特征进行PCA降维,降维后的主成分结合ichorCNA获得的肿瘤纯度构建分类预测模型(xgboost,Random Forest,SVM,Logistic Regression)。

图1. 研究概览及数据描述图

研究结果

1. 在PGDX队列中突变特征的检测

首先,对PGDX队列中四期结直肠癌(CRC)的患者进行分析,这些患者多存在错配修复缺陷及微卫星不稳定性。采用Pointy方法提取突变特征,并拟合SBS特征谱,从图2中可以看出,在CRC患者中贡献最大的特征是SBS1和SBS54,与健康样本相比,差异最显著的特征是SBS1和SBS21。其中,老化特征(SBS1和SBS5)以及MSI特征(SBS20和SBS21)在CRC和健康对照样本中差异显著,在CRC患者中,老化和MSI的贡献相对于健康对照样本贡献更多;且都与ctDNA肿瘤纯度和TMB存在显著的相关性。

图2. IV期结直肠癌患者的突变特征图谱

2.PGDX队列中的分类预测结果

本研究中利用96种三碱基突变特征图谱对PGDX队列构建了分类预测模型。从图3a的主成分分析结果中可以看出,CRC患者和健康人对照样本能基于主成分进行良好的区分,且PC1和PC2与ctDNA肿瘤纯度显著正相关。进一步评估了每种SBS特征对主成分的贡献度,从图c可以看出,SBS3对PC1的贡献度最大,SBS8对PC2的贡献度最大。最后对突变特征的主成分构建随机森林分类预测模型,AUC可达0.99(95%CI:0.95-1)。

图3. PGDX队列的分类检测结果 

3. DELFI队列中的分类预测结果

为进一步验证Pointy方法的性能,将该方法应用于DELFI队列中,使用去除SNP位点的96种突变特征矩阵构建随机森林模型,结果表明对所有癌种中,癌与非癌的分类性能为0.96(95% CI:0.94-0.96)。

图4. 跨癌症类型的癌症检测 

讨论

本研究提出了一种基于LP-WGS全基因组突变特征的癌症检测方法,并探索了不同SBS信号在癌症患者与健康样本中的差异,展示了癌症与健康样本中存在不同的突变过程。

由于测序深度不足,获得的突变特征中并未去除胚系突变,且低频的突变特征可能会被遗漏,限制了该方法检测的灵敏度;本研究中纳入的队列都来源于已发表的研究,后续需要在更大的样本集中进行验证。

结语

本研究基于LP-WGS的全基因组突变特征,结合机器学习对癌症进行检测,并在两个独立的队列中验证的分类性能良好,显示了其在癌症早期筛查中潜在的应用价值。后续可尝试通过深度测序结合胚系突变检测的方法,或与片段组特征结合构建整合模型的方法,探索更优的性能及更多的可能性。

END

参考文献:  [1] Wan, J. C. M. et al. Genome-wide mutational signatures in low-coverage whole genome sequencing of cell-free DNA.Nat Commun 13, 4953 (2022). 

撰写丨吴兮  编辑、排版丨SX