发布需求
请登录 注册

Genome Biol | 多种测序技术分析癌症参考细胞系中的结构变异,构建高置信度共识调用集

发布时间:2023-02-01 15:05:55 I 企业名称:桔园平台 I 作者:测序中国
基因组不稳定性是癌症的关键标志之一,其由染色体易位、重复、插入/缺失、倒置以及拷贝数变异等导致。细胞中的结构变异(SV)可能会激活癌基因或阻断肿瘤调节基因。为了准确检测癌症、监测复发、制定精准的医疗策略和开发新的药物,准确检测体细胞SV至关重要。
近年来,由于单核苷酸水平的分辨率和高通量,NGS技术在体细胞SV检测中显示出巨大的临床应用前景。但人类基因组中的重复结构较多,使用NGS检测SV仍具有挑战性,因此,整合多种技术的数据对于准确检测SV是必要的。已有研究通过将长读长测序技术与RNA-seq相结合,在乳腺癌细胞系发现了超20,000种SV,但该癌细胞系中的关键突变特征,如单核苷酸变异(SNV)和小插入缺失(InDel),尚未得到较好的研究。
近日,美国弗雷德里克国家癌症研究实验室、洛马琳达大学基因组学研究中心等机构的研究人员合作在Genome Biology上发表了题为“Structural variant analysis of a cancer reference cell line sample using multiple sequencing technologies”的研究文章。研究团队通过多种NGS平台系统地研究了参考癌症细胞系中的体细胞SV,并将其与相匹配的正常细胞系进行比较,建立了一个包含1,788个SV的共识调用集,为提高癌症基因组SV检测的敏感性和准确性提供了参考。
图片
文章发表于Genome Biology
为建立共识SV调用集并评估影响SV检测准确性的因素,研究团队选择了一个具有相匹配正常细胞系的乳腺癌细胞系(肿瘤HCC1395和正常HCC1395BL),该细胞系先前已被SEQC2联盟用于SNV分析。研究团队从5种NGS平台生成了测序数据,包括Illumina短读长测序、10X Genomics Linked-Reads、PacBio单分子长读长测序、Oxford Nanopore长读长测序和高通量染色体构象捕获(Hi-C)技术(图1),对HCC1395和HCC1395BL的基因组覆盖率超6600X
图片
图1. SV检测和整合的流程。来源:Genome Biology
研究团队使用Survivir算法对HCC1395和HCC1395BL进行SV检测。结果显示,共有46,284个体细胞SV来自HCC1395,168,401个胚系SV来自HCC1395BL。进一步,研究团队整合了五个NGS平台的SV数据,去除了基因组中重叠的区域,并基于多个软件工具对其进行验证,最终获得高置信度的共识SV调用集。该调用集由1,788个SV组成,包括717个缺失、230个重复、551个插入、133个倒置和146个易位以及11个多断点事件
每个平台的检测范围不同,每种软件算法也受到SV类型的限制。NGS技术的选择是决定SV检测准确性和灵敏度的主要因素之一。此外,研究团队还观察到不同技术和软件工具的体细胞SV检测一致性较低,但特定SV类型和大小检测存在一致性(图2),较小的SV检测比较大的SV检测更具一致性。
图片
图2. 体细胞SV共识调用集。来源:Genome Biology
研究团队注意到,与Illumina、PacBio和10X Genomics平台检测到的小片段缺失事件相比,Illumina检测500bp-1kb范围内的片段缺失比例更高;对于长度为几千碱基至百万碱基的SV,PacBio、Nanopore和Hi-C技术比短读长测序和Linked-Reads技术具有更高的一致性。此外,长读长测序技术能够发现更复杂、更大型的SV,但这些SV往往会被短读长测序技术遗漏或误判(图3)。
软件算法的选择是影响SV检测准确性的另一个重要因素。此外,一些软件工具相互之间具有较高的一致性。例如,当用于PacBio和Nanopore SV检测时,PBSV、Sniffles和NanoSV高度重叠。同样,当利用Illumina短读长测序检测SV时,Manta、novoBreak和TNscope高度一致。
图片
图3. HCC1395癌细胞系中不同NGS技术和软件工具的SV检测比较。来源:Genome Biology
为研究SV的功能,研究团队使用AnnoSV对共识SV进行了注释,确定了53个被确认为致病或可能致病的SV(包括缺失和重复事件);与融合转录物相关的13个倒置和11个易位事件SV。研究团队提取了122个与共识SV重叠的癌症相关基因,发现高突变的基因如BARD1、MALT1、BRCA1/BRCA2、EIF3K、PTEN、FGFR2MAP3K1,与一种或多种技术鉴定的肿瘤样本SV重叠(图4)。许多大型SV是同一区域内所涉及的几个较小SV组成的复杂事件
图片
图4. 参考样本中SV注释。来源:Genome Biology
为评估正常细胞混杂量(肿瘤纯度)和样本异质性的影响,研究团队以5、10、20、75和100%肿瘤比例将肿瘤DNA掺入到正常DNA中。将Illumina WGS三次重复运行的读取数据汇总后,在每个细胞系上以100X覆盖率进行测序,以产生300X的覆盖率,数据集被二次采样为300X、200X、100X、80X、50X、30X和10X。研究团队比较了16,858个SV(包括6,431个大SV和10,453个小SV)中,基于肿瘤纯度、测序深度和SV类型的检测灵敏度(图5)。
当肿瘤纯度>20%时,SV检测的数量较高;当肿瘤纯度<20%时,SV检测灵敏度大幅降低。研究团队还比较了肿瘤纯度和测序深度对SV检测灵敏度的联合影响,当肿瘤纯度>50%时,低至30X的测序深度所检测到的SV百分比较高;但当肿瘤纯度较低时,则需要更高的测序深度,检测灵敏度和测序深度密切相关
此外,为了评估不同平台的性能,研究团队比较了PacBio、Nanopore、Illumina、Bionano、10X Chromium和Hi-C调用的SV。总体相对灵敏度表明,Nanopore和PacBio-SV检测之间高度一致;Illumina SV检测与10X和Bionano中度一致,但10X和Bionano对Illumina SV检测的再现能力有限
图片
图5. 肿瘤纯度对SV检测灵敏度的影响。来源:Genome Biology
综上所述,研究团队结合多种测序技术对乳腺癌和正常细胞系进行深度测序,系统研究了SV检测,并开发了一个集成的SV调用集。通过比较多个技术/平台和不同的软件工具,研究团队建立了一个参考癌症样本高置信度的共识调用集,由1,788个SV组成。研究表明,多种技术的结合可以提高癌症基因组SV调用的敏感性和准确性。
参考文献:
Talsania K, Shen TW, Chen X, et al. Structural variant analysis of a cancer reference cell line sample using multiple sequencing technologies. Genome Biol. 2022;23(1):255. Published 2022 Dec 13. doi:10.1186/s13059-022-02816-6

咨询

我们尊重知识产权,如您认为本平台所载文章、图片、视频等内容侵犯您的合法权益,请您及时联系我们,我们将依据相关法律法规、平台规则予以处理。
关键字
  • 161
  • 点赞
  • 复制链接
  • 举报