1. metagenome-like方法组装出来然后清除污染序列体积为2.8GB:有点小,需要进一步评估是否可以使用。使用BUSCO或CheckM等工具评估组装基因组的完整性和污染率。如果BUSCO完整性高(>95%)且污染率低(<5%),说明组装质量较好,可以用于下游分析
2. cd-hit-est去除重复contig卡死:cd-hit-est默认参数会进行全序列比对,26w个contig可能导致内存溢出或进程卡死。可以尝试一下MMseqs2。
3. iteratively assembly组装到700MB卡死:比对步骤会消耗大量内存,拼接步骤也可能因图结构过于复杂而卡住。可以尝试在迭代组装前过滤掉长度小于500bp的contig;以及 将样本按分组拆分,分别进行迭代组装,最后再合并结果。