10 perl脚本去除重复的hmmer搜索的转录本ID为一行,且结果ID是蛋白序列ID。

#去除重复的hmmer搜索的转录本ID,多个转录本ID保留一个作为基因的代表,此步建议对脚本输出的文件手动筛选,挑选ID:

perl script/select_redundant_mRNA.pl mRNA2geneID.txt WRKY_domain_new_out_selected.txt WRKY_remove_redundant_IDlist.txt

查看解答区的相似问题:老师的解答为:GFF文件可能不是标准的gff文件。我检查了自己的gff文件,第三列包含了gene,mRNA,cds等信息(标注2)。但是与拟南芥的gff文件相比,多了红色部分内容(标注1)。如图所示:

图一为我的gff文件信息

attachments-2022-10-B16B7FAb6353db81bee12.png

 图二 拟南芥

attachments-2022-10-MNMNFL0f6353e96916b97.png

另外,我检查了蛋白ID和gffID,发现ID不一致。蛋白ID多了:.1。第一张为蛋白ID,第二张为gff ID。

attachments-2022-10-VokOqLCe6353dd3fc6648.png

attachments-2022-10-shEsl8vb6353dd7e3fafe.png

我的mRNA2geneID.txt 如下:

attachments-2022-10-DjzcL2vw6353e416668da.png这是xxxx_domain_new_out_selected.txt截图:(gene 处连接为完整序列信息)

attachments-2022-10-QI1HNpuV6353e7d161e4c.pngattachments-2022-10-jCbtz4pE6353e7e03f133.png

    因此,为了去除重复,我应该怎么该我的文件?

请先 登录 后评论

2 个回答

血色蔷薇

     按照脚本:ID保持一致,也就是gff中第9列,ID标签和parent标签与蛋白序列和cds序列里面的ID一致;#处理GFF 文件里面ID与蛋白质中的ID保持一致

那我:

1.修改gff文件加上:“.1”  将就蛋白ID 和 CDS ID 可以吗?

2.还是将蛋白ID的“.1”全部删除?


请先 登录 后评论
omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

你这个比较麻烦,蛋白ID和mRNA ID 不是一致的,导致脚本找不到对应的蛋白序列;

因为我的脚本认为 mRNAID和  cds pep 序列的ID一致;

请先 登录 后评论
  • 2 关注
  • 0 收藏,1074 浏览
  • 血色蔷薇 提出于 2022-10-22 21:03

相似问题