是正常的,泛基因集基因对筛选条件有两个,1是在syn.txt中有共线性关系;2是last.txt中相似度100的首次匹配。会对两个文件进行筛选并对结果取交集。最终得到可靠的结果output.txt。所以过程中会有结果被过滤掉
泛基因集执行命令时,# 找到最佳匹配的基因对和共线性基因对的交集 sort -u 1vs1.txt| sed "s/\r//g"| awk '{if(ARGIND==1) {val[$0]}else{if($0 in val) print $0}}' syn.txt - > output.txt wc -l output.txt #显示文件含有的基因数 #第三段命令 # 匹配位置信息 awk 'NR==FNR{a[$4]=$0;next}NR>FNR{if($2 in a)print a[$2]}' all.bed output.txt \ | awk '{ print $1"\t"$2"\t"$3}' | sed "s/_/\t/g" | paste output.txt - > last.gene.pair.txt # 把第二列的前缀去掉 awk '{split($2, a, "_"); $2 = a[length(a)] " " $3; printf "%s\n", $0}' last.gene.pair.txt |\ sed "s/ /\t/g" | sed "1i\PangeneID\\tgeneID\\tSpieces\\tChrom\\tStart\\tEnd" > final.last.gene.pair.txt执行上述命令时,syn.txt文件中还含有Ensve08_g003360基因的存在,为什么到最后output.txt和final.last.gene.pair.txt文件生成时就不存在了?而且除了该基因外,还有一些基因是丢失的,是什么原因?这正常吗