1. jellyfish histo这一步的 -h 参数也需要同步调大。
2. 较短的k-mer(如k=21)在重复序列中易产生交叉比对,导致重复序列被低估,可以多测试几个k值。
我在用GenomeScope软件预测一个种质的基因组大小的时候,结果显示基因组大小是348M。但是,我做kmer分析的时候,kmer总数量是16756256187,主峰的深度是42,这样计算的话(kmer数量除以深度)基因组大小应该是397M。而且测序公司也做了基因组的SURVEY,显示基因组大小为392M,修正后为387M。与我用GenomeScope软件预测的相距较大。这个物种以前也做过基因组测序,基因组大小大概在400M左右,我觉得348M,预测的偏小了。我将--max_kmercov 10000的数值调到很大,但是预测的结果没有变化,是什么原因呢?导致预测的结果偏小