发布需求
请登录 注册

Cancer Res|解码癌症遗传祖先的新算法,可从癌症衍生分子数据进行遗传血统推断

发布时间:2023-02-01 14:48:59 I 企业名称:桔园平台 I 作者:测序中国
已发表的许多大规模癌症基因组研究表明,不同祖先背景群体之间的疾病分子组成存在差异,种族和族裔是多种癌症发病率、临床病程和结局的重要决定因素。癌症衍生数据的祖先特征主要有两个来源:患者自我识别的种族和族裔(SIRE)和患者的无癌基因型。但SIRE往往不完整或不准确且通常不与遗传血统一致,这就导致医生无法捕捉到完整的患者祖先信息,特别是在混合血统的情况下。从无癌组织中对患者的DNA进行基因分型,往往可以获得更准确和详细的祖先特征,但并不适用于所有类型的癌症(如白血病)。在此情况下,从肿瘤本身的核酸序列来推断患者遗传祖先是十分必要的。
近日,美国冷泉港实验室(CSHL)研究团队在Cancer Research杂志上发表了题为“Genetic Ancestry Inference from Cancer-Derived Molecular Data across Genomic and Transcriptomic Platforms”的文章。研究团队揭示了癌症和种族/族裔之间的谱系关联,并开发了一种新算法,能够在缺乏匹配无癌基因组数据的情况下,从肿瘤DNA和RNA中准确、可靠地推断患者遗传祖先。该研究有助于临床医生制定早期癌症检测和个性化治疗的新策略。
图片
文章发表于Cancer Research
研究团队开发了一个数据合成框架,从癌症衍生数据(包括全外显子组、转录组和靶向基因组)中来推断遗传祖先(算法流程如图1所示)。该算法首先对患者样本和已知祖先的基因组数据进行数据合成。研究团队将已建立的祖先推断方法应用于该算法,并将得出的结果与已知祖先数据进行比较,生成多个合成数据,以评估其推断患者遗传祖先的准确性。此外,通过使用合成数据,研究团队还能够根据其所依赖的参数优化算法的推断过程。
图片
图1. 使用数据合成从癌症衍生的分子数据推断遗传祖先的概述。来源:Cancer Research
研究团队纳入了TCGA-卵巢囊腺癌(TCGA-OV)、TCGA-乳腺癌祖先多样性子集(TCGA-BRCA)、Beat AML临床试验(Beat AML)和一项使用PDO的胰腺导管腺癌研究(PDAC)等四个数据集的数据(图2),以Venn图的形式对所使用的数据进行汇总,这些数据包括癌症DNA(全外显子或全基因组)序列、癌症RNA序列和相匹配的正常DNA(全外显子或全基因组)序列。此外,研究团队还使用1,000个基因组项目(1KG)数据集作为参考,将其与患者分子数据进行比较,以推断大陆水平的全球血统。后者被定义为具有五个值的分类变量:非洲(AFR)、东亚(EAS)、欧洲(EUR)、美洲(AMR)和南亚(SAS)。
研究团队对1KG数据集进行了初步数据处理,标示其高频替代变异的基因组(HFS)位置作为祖先推断的基础,HFS位置所在的子集被称为高置信度基因型(HCG)集。进一步,研究团队对HCG基因组位置进行修剪,以减少相邻基因型之间的相关性,从而得到修剪后的高置信度基因型(PHCG)位置集
图片
图2. 研究中使用的分子数据。来源:Cancer Research
遗传祖先推断的流程如图3所示,研究团队采用了主成分分析(PCA)与K近邻分类相结合的方法。对于每个队列中的患者子集,研究团队分别评估了参数K和D函数的祖先推断性能,并保留主要维度的数量,根据数据综合对其进行评估。
图片
图3. 遗传祖先推断的流程图。来源:Cancer Research
为验证算法的有效性,研究团队对四种癌症类型进行了研究,即胰腺腺癌(PDAC)、卵巢囊腺癌、以乳腺癌为代表的上皮性肿瘤以及以急性髓系白血病(AML)为代表的造血系统恶性肿瘤。研究团队选择了最佳范围内的D、K值对,并将其应用于TCGA-OV和TCGA-BRCA患者的无癌WES谱。结果显示,该算法得出的祖先推定结果与数据库资料一致。研究团队还将其与相匹配的基于无癌基因型的祖先推断进行了比较,对于Beat AML、TCGA-OV和TCGA-BRCA患者,其祖先推定结果与数据库资料一致。上述结果表明,在所有队列和分析模式中,该算法均显示出较高的准确率
图片
图4. AMR特异性AUROC对推断参数D和K的依赖性。来源:Cancer Research
综上所述,研究团队开发了一种从癌症衍生的分子数据中进行准确、稳健地祖先推断的计算方法。该方法将一种基于PCA的祖先推断技术与使用合成数据进行推断参数优化的方法相结合,有助于遗传血统导向的癌症研究。研究团队还从已知背景的癌症和不相关无癌基因组中创建样本图谱,并利用已知血统的胰腺癌、卵巢癌、乳腺癌和血癌样本验证了该算法的性能,结果显示该算法准确率超95%
参考文献:
Pascal Belleau et al, Genetic Ancestry Inference from Cancer-Derived Molecular Data across Genomic and Transcriptomic Platforms, Cancer Research (2022). DOI: 10.1158/0008-5472.CAN-22-0682.

咨询

我们尊重知识产权,如您认为本平台所载文章、图片、视频等内容侵犯您的合法权益,请您及时联系我们,我们将依据相关法律法规、平台规则予以处理。
关键字
  • 111
  • 点赞
  • 复制链接
  • 举报