发布需求
请登录 注册

利用纳米孔测序准确检测植物全基因组5mC,王建新/罗峰/肖传乐等在Nature子刊发表甲基化检测新算法

发布时间:2023-02-09 16:41:39 I 企业名称:桔园平台 I 作者:测序中国
DNA甲基化是表观遗传学中的一个重要研究方向,其在染色质结构和组织水平上的生物过程中起主要作用。近年来,三代测序技术(PacBio SMRT和Oxford Nanopore测序)迅速发展。SMRT测序中的荧光信号和Nanopore(纳米孔)测序中的电信号都会受到碱基的表观遗传变化的影响,因此这两种测序技术都能够直接用来检测DNA甲基化修饰,不需要设计额外的生物实验。SMRT测序的HiFi技术能使其测序序列具有较高准确度,但检测甲基化的准确度仍依赖于较高的测序覆盖度;纳米孔测序的电信号对碱基修饰比较敏感,且测序成本低廉,因此纳米孔测序是目前主流的三代测序检测DNA甲基化的方法。
目前,已有多种基于纳米孔测序的DNA甲基化检测方法,可以准确检测人类CpG位点的5mC。但不同于人类等哺乳动物,植物中的5mC甲基化不仅发生在CpG位点,也在non-CpG(CHG和CHH)位点中广泛存在,并在生物过程的调节中发挥不同的作用。由于CHG和CHH在植物基因组上与CpG的甲基化水平有较大差别,且高可信训练数据难以收集,因此尚没有基于纳米孔测序的方法可以在CpG和non-CpG的5mC预测方面同时具有高准确度
针对这一局限,中南大学计算机学院王建新团队、美国克莱姆森大学计算机学院罗峰团队和中山大学中山眼科中心肖传乐团队于2021年10月13日在Nature Communications杂志上联合发表题为“Genome-wide detection of cytosine methylations in plant from Nanopore data using deep learning”的研究论文,提出了可准确检测植物全基因组5mC的方法,并开发了相应的软件DeepSignal-plant。
图片
图1. 该文章发表在Nature Communications
研究团队对中国农科院刘文德团队提供的拟南芥和水稻样品进行了纳米孔测序和二代亚硫酸氢盐测序。基于所测数据,首先利用双向循环神经网络BiLSTM构建DeepSignal-plant的深度学习模型,处理纳米孔测序数据中目标位点k-mer的信号特征和序列特征(图2a)。同时,研究团队设计样本平衡和去噪策略处理训练样本数据(图2b),去除训练数据中的假阳性样本(图2c),得到高可信训练数据,使模型在CpG、CHG和CHH三个motif上5mC的预测性能有了较大提升(图2d)。
图片
图2.DeepSignal-plant的深度学习框架和去噪策略。来源:Nature Communications
随后,研究团队利用三种植物的数据集(拟南芥、水稻和公开黑芥数据集)对训练得到的模型进行性能测试。结果表明,DeepSignal-plant的5mC预测结果与亚硫酸氢盐测序高度相关。与现有工具相比,DeepSignal-plant在拟南芥与水稻三个motif(CpG, CHG和CHH)的5mC检测上,均具有与亚硫酸氢盐测序更高的相关性,在黑芥CHH的5mC预测上也有明显优势(图3)。此外,凭借纳米孔测序的长读长优势,DeepSignal-plant分析的5mC位点比亚硫酸氢盐测序更多(拟南芥中多测1.1%,水稻中多测5.3%)。由此可以证明,DeepSignal-plant对于解析复杂植物基因组的甲基化修饰更具优势,有助于更全面地了解植物不同生物过程的表观遗传机制。
图片
图3.DeepSignal-plant的5mC检测性能评估。来源:Nature Communications
此外,研究团队用DeepSignal-plant对拟南芥和水稻的重复区片段进行了解析。统计发现,在两种植物的基因组中有6%~9%的重复区对,即基因组上两段相同的重复序列,呈现出差异的甲基化水平,且这种差异具有一定的稳定性(图4)。上述结果表明,利用纳米孔测序和DeepSignal-plant,能为基因组上的重复基因以及转座子等区域,与其甲基化水平之间的关系研究提供新的见解。
图片
图4.DeepSignal-plant对基因组重复片段甲基化的解析。来源:Nature Communications
综上所述,该研究提出的甲基化检测方法可以准确地预测植物全基因组的5mC甲基化。并且利用纳米孔长读长的优势,该方法可实现对植物基因组,尤其是复杂重复区域的更全面解析。
文章第一作者:
倪鹏
中南大学计算机学院博士生。主要从事三代测序碱基修饰预测算法研究。
文章通讯作者:
王建新
中南大学计算机学院教授,博士生导师,计算机学院院长,医疗大数据应用技术国家工程实验室副主任,国务院政府特殊津贴获得者,ACM Sigbio China主席,中国计算机学会生物信息学专委会主任委员。主要研究方向计算机算法与优化、生物信息学、网络优化理论、大数据应用、深度学习等。在Nature CommunicationsGenome ResearchNucleic Acids ResearchMedical Image Analysis(3篇)等国际刊物和会议上发表论文200余篇。
罗峰
克莱姆森大学计算机学院教授,博士生导师。主要研究方向包括深度学习与应用、高通量生物数据分析、数据密集型生物信息学、网络生物学、计算基因组学和计算遗传学。在Nature MethodsNature CommunicationsMolecular CellBioinformatics等杂志上发表论文100余篇。
肖传乐
中山大学中山眼科中心副研究员,硕博士生导师,广东省杰出青年基金获得者,长期从事三代测序数据分析方法开发及应用研究。先后主持开发了三代测序组装方法(MECAT,MECAT2和NECAT)和表观修饰检测方法(DeepMod和DeepSignal),在Nature MethodsMolecular CellNature Communications(2019、2021A和2021B)等杂志上发表SCI论文40余篇。
参考资料:
Ni, P., Huang, N., Nie, F. et al. Genome-wide detection of cytosine methylations in plant from Nanopore data using deep learning. Nat Commun 12, 5976 (2021). https://www.nature.com/articles/s41467-021-26278-9
 

咨询

我们尊重知识产权,如您认为本平台所载文章、图片、视频等内容侵犯您的合法权益,请您及时联系我们,我们将依据相关法律法规、平台规则予以处理。
关键字
  • 217
  • 点赞
  • 复制链接
  • 举报