Cell Research | 上海交通大学王卫庆/曹亚南团队发表用于中国人群准确基因型插补的ChinaMAP参考panel
基因型插补可用于从单核苷酸多态性(SNP)基因分型阵列或全基因组测序(WGS)数据中估算未发现的基因型。通过基于特定人群单倍型的最佳参考数据进行插补可以显著改善全基因组关联研究(GWAS)中基因变异的精细定位。目前,大型高分辨率参考panel取得了重大进展,例如1KGP3、UK10K、HRC、TOPMed和GAsP。
其中,多民族参考panel KGP3常用于亚洲人群的遗传研究。但由于不同地域人群和种族之间的历史渊源以及遗传背景存在巨大差异,欧洲血统主导的参考panel在中国和其他东亚人群的基因型插补中表现不佳,无法直接用于中国人群的基因型插补。
为了实现中国基因组数据集的高质量插补,上海交通大学王卫庆与曹亚南研究团队联合发布了一个基于中国人群大规模WGS数据的高分辨率和群体特异性参考panel,并于9月6日在Cell Research上发表了题为“The ChinaMAP reference panel for the accurate genotype imputation in Chinese populations”的文章。研究团队基于中国代谢分析项目(ChinaMAP)的WGS数据构建了该高分辨率和群体特异性参考panel。与此前的中国样本的参考panel相比,ChinaMAP参考panel在样本量、测序深度、插补准确性、精确度和灵敏度方面表现出显著优势。ChinaMAP插补服务器(www.mbiobank.com)可以为中国和东亚人群的遗传研究提供最佳插补方法,有助于中国人群遗传研究中更全面的插补和更新颖的发现。
文章发表在Cell Research上
良好插补的变异数量和插补准确性取决于参考panel数据集的特征,包括样本量、测序质量和人口组成。有限的中国样本限制了中国人口研究中参考panel的插补质量。此外,结构数据集测序深度不足会降低对稀有变异插补的检测能力。因此,基于中国人群的大规模、深入的 WGS数据集构建的特定人群参考数据集对于准确、全面地估算来自中国个体的基因分型阵列和测序数据至关重要。
据文章介绍,ChinaMAP参考panel包含59.01 M SNP,包括44.03 M已知SNP和14.98 M新SNP,其中大多数新SNP(99.65%)非常罕见(等位基因频率(AF)≤0.1%)。主成分分析表明,ChinaMAP参考panel由七个中国汉族亚群体和七个少数民族组成。与常用的参考panel 1KGP3、HRC、GAsP和TOPMed等相比,ChinaMAP参考panel包含30.24 M特异性SNP(图1a)。
为评估ChinaMAP参考panel的性能,研究团队将ChinaMAP与两个常用的基因型插补参考panel进行了比较。利用一个独立的WGS数据集(40倍深度,36450184个SNPs)模拟了一个典型的估算分析,分别对来自英国Biobank 460,481个变异和Infinium Asia Screing Array的517,745个变异进行了筛选,并对不同参照系进行估算。结果表明,ChinaMAP参考panel在估算变异数和变异覆盖率方面表现优异,并且显著提高了低频、罕见和非常罕见的插补变异的数量。此外, ChinaMAP参考panel可以获得比其他panel更准确的插补功能缺失变异(LOF)(图1c)。
图1. 通过使用不同参考panel对WGS数据集进行插补。来源:Cell Research
随后,研究团队比较了不同参考panel对不同等位基因频率下的插补精度。结果显示,ChinaMAP参考panel总体插补精度最高。在插补结果和WGS基因型的比较中,ChinaMAP参考panel在五个常见的参考panel中显示了最佳插补精度和灵敏度。ChinaMAP参考panel估算的真阳性变异数量最多,假阳性和假阴性变异数量最少。综上所述,与其他参考panel相比,人群特异性ChinaMAP参考panel在中国个体基因分型数据的精确插补方面表现出显著的优越性。(图2)
图2. 不同参考panel的插补精度和灵敏度。来源:Cell Research
为了进一步评估ChinaMAP参考panel在GWAS分析中的插补效率,研究团队对ChinaMAP第2阶段4775名个体的基因分型阵列数据进行了插补。728K的基因分型变异使用基于ChinaMAP数据库设计的中国基因组阵列(MAPCGA)进行。使用ChinaMAP和1KGP3参考panel的插补分别产生了15.8 M和6.45 M的插补良好的变异。结果显示,ChinaMAP参考panel可将ChinaMAP数据库中的AF≥ 0.5% 和 AF ≥ 5% 的变异覆盖率提高到83.36%和88.17%(图3)。9.35 M良好推测变异体的显著增加可助力GWAS或多基因风险评分分析获得更好的结果。
图3. 不同面板产生了具有不同等位基因频率的良好插补变异。来源:Cell Research
综上,ChinaMAP参考panel是基于大型、高覆盖率WGS数据集构建,可用于准确、全面的插补。与已有的参考panel相比,群体特异性ChinaMAP参考panel在良好插补数量、插补准确性、精密度和灵敏度方面表现出显著优势。ChinaMAP计算服务器(www.mbiobank.com)可为中国和东亚人群的遗传研究提供最佳插补方法。
参考资料:
Li, L., Huang, P., Sun, X. et al. The ChinaMAP reference panel for the accurate genotype imputation in Chinese populations. Cell Res (2021). https://doi.org/10.1038/s41422-021-00564-z
咨询
我们尊重知识产权,如您认为本平台所载文章、图片、视频等内容侵犯您的合法权益,请您及时联系我们,我们将依据相关法律法规、平台规则予以处理。
关键字
- 288
- 点赞
- 复制链接
- 举报