重测序过滤

老师您好,我公司返回来的过滤数据All.filtered.vcf.gz有441.37GB,之后根据课程0.1:vcfutils.pl  过滤掉indel附近的snp,all.varFilter.vcf.gz是173.01GB,#0.2:vcftools的结果文件clean.vcf是101.63GB,最后LD过滤之后剩余2.94GB,感觉过滤之后小了很多很多,这个大小差异是正确的吗?

请先 登录 后评论

1 个回答

Ti Amo

公司返回给你的vcf文件里面可能是没有区分snp和indel的,需要先分开snp和indel再使用这三步进行过滤。正常第一步不会少这么多。假设以173G作为基准的话,第二步和第三步过滤保留的文件大小没什么问题。

主要是LD过滤里面会删掉关联的SNP,这一步是会删掉非常多位点的。但是在很多步骤里面其实使用的是第二步的vcf,只有部分分析要求snp是独立的才会使用第三步过滤的vcf。

请先 登录 后评论
  • 0 关注
  • 0 收藏,77 浏览
  • Androsace 提出于 4天前

相似问题