5 蛋白序列ID和cds序列ID不一致

老师,我做基因家族分析

下面是蛋白ID

attachments-2019-03-rFv15O2d5c91daa3a0fef.jpg下面是cds序列

attachments-2019-03-UNuhI0CV5c91dacb653d1.jpg下面是gff文件

attachments-2019-03-RQvhIKwf5c91daf257d86.jpg获取基因与mRNA的对应关系perl script/mRNAid_to_geneid.pl Arabidopsis_thaliana.TAIR10.41.gff3 mRNA2geneID.txt,提取到的ID=Zm00001d027240_T001,而在hmm搜索的结果ID=Zm00001d027240_P001,在去除重复的hmmer搜索的转录本ID时,ID不一致,同时hmm搜索的结果ID和cds序列里ID也不一致,无法提取cds序列

请先 登录 后评论

3 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

看命名规律,你把蛋白ID里面的P统一搜索替换成T,这样就和GFF里面的ID一致了;


基础课:linux系统使用

请先 登录 后评论
追梦

老师,能说下具体的操作吗?是用正则表达式?谢谢

请先 登录 后评论
安生水
擅长:perl,基因家族,linux,chip-seq

可以使用以下命令:

sed 's/_P/_T/'  蛋白质文件名 > new.name

最好确认一下有没有替换成功。

请先 登录 后评论