老师您好,我公司返回来的过滤数据All.filtered.vcf.gz有441.37GB,之后根据课程0.1:vcfutils.pl 过滤掉indel附近的snp,all.varFilter.vcf.gz是173.01GB,#0.2:vcftools的结果文件clean.vcf是101.63GB,最后LD过滤之后剩余2.94GB,感觉过滤之后小了很多很多,这个大小差异是正确的吗?
公司返回给你的vcf文件里面可能是没有区分snp和indel的,需要先分开snp和indel再使用这三步进行过滤。正常第一步不会少这么多。假设以173G作为基准的话,第二步和第三步过滤保留的文件大小没什么问题。
主要是LD过滤里面会删掉关联的SNP,这一步是会删掉非常多位点的。但是在很多步骤里面其实使用的是第二步的vcf,只有部分分析要求snp是独立的才会使用第三步过滤的vcf。