当前位置: 学院首页 > 科研进展 > 正文

科研进展

《Nature Communications》上发表甘祥超教授团队“GALA: a computational framework for de novo chromosome-by-chromosomeassembly with long reads”

发布人:     发布日期: 2023-02-22    浏览次数:


近日,威尼斯论坛wnsr甘祥超教授与其原德国马克斯·普朗克植物育种研究所团队在《Nature Communications》上发表题为“GALA: a computational framework for de novo chromosome-by-chromosomeassembly with long reads”的研究论文,并发布了相应的开源软件GALA (http://github.com/ganlab/gala),为利用三代测序实现端粒到端粒的无缺失染色体组装提供了一条全新的技术路线。

植物和动物基因组中通常包含多条染色体,比如水稻有12对染色体,而我们人类有23对染色体。现有的染色体分离技术虽然可用实现染色体的物理分离,但是该技术依赖昂贵仪器,需要大量人力物力,难以大规模应用于基因组测序。

对当前的整个基因组混合测序的数据,现有的基因组组装算法都是“先组装、后染色体分离”的流程。本研究针对现有的测序技术中多条染色体混合、数据互相串扰的瓶颈问题,首创了“先分离,后组装”的技术路线。利用多层统计网络模型,研发了将无参考序列组装复杂的流程模块化技术,首次实现了三代测序中Pacbio、Nanopore数据的集成组装,和多种异质性数据如参考基因组、遗传图谱以及Hi-C数据的灵活利用,并开发了算法GALA 。

图一. GALA 的流程图

首先利用多层统计网络模型实现对预组装和原始数据编码,并利用计算机图论经典算法对数据纠错。然后利用统计网络对原始测序数据实现染色体级别的分离,该网络模型同时也可以Hi-C、Bionano、近亲或者同物种参考基因组组信息辅助数据分离。

利用GALA这种先数据分离,然后组装的策略,我们可以实现线虫、水稻基因组端粒到端粒的无缺失组装。对更复杂的人类基因组,仅利用Nanopore测序数据,也能实现多条染色体的无缺失组装,进一步分析表明,部分染色体中的缺失是源自数据自身的缺失造成的。


图二. GALA对人类基因组的组装结果

德国马克斯·普朗克植物育种所博士研究生Mohamed Awad 为该论文第一作者,威尼斯论坛wnsr甘祥超教授为该论文通讯作者。该研究得到德国马克斯·普朗克研究所科研基金、国家自然科学基金、江苏省前沿引领技术基础研究专项、现代作物生产省部共建协同创新中心等项目的资助。