泛基因组组装

老师您好,我在做真菌物种的泛基因组组装中有一些问题想要请教一下,我的参考基因组组装质量较差,110多个contig,未组装到染色体水平,然后使用二代数据进行迭代组装,二代重测序数据也无法进行基因组组装。使用metagenome-like方法组装出来然后清除污染序列体积为2.8GB。使用unmap组装出来为4.1GB,有2,622,232个contig,但是使用cd-hit-est进行去除重复contig是一直卡住。使用iteratively assembly方法进行组装时merged.fasta组装到700MB时也卡住了。请问老师2.8GB的泛基因组可以使用吗,后面两种方法有办法解决吗?

请先 登录 后评论

1 个回答

Ti Amo

1. metagenome-like方法组装出来然后清除污染序列体积为2.8GB:有点小,需要进一步评估是否可以使用。使用BUSCO或CheckM等工具评估组装基因组的完整性和污染率。如果BUSCO完整性高(>95%)且污染率低(<5%),说明组装质量较好,可以用于下游分析
2. cd-hit-est去除重复contig卡死:cd-hit-est默认参数会进行全序列比对,26w个contig可能导致内存溢出或进程卡死。可以尝试一下MMseqs2​。
3. iteratively assembly组装到700MB卡死:比对步骤会消耗大量内存,拼接步骤也可能因图结构过于复杂而卡住。可以尝试在迭代组装前过滤掉长度小于500bp的contig;以及 将样本按分组拆分,分别进行迭代组装,最后再合并结果。

请先 登录 后评论
  • 0 关注
  • 0 收藏,27 浏览
  • BJFU 提出于 1天前