基因组注释提取,gff3_file_to_proteins.pl 序列出错,跟官网给的序列不一致

  /share/work/biosoft/TransDecoder/latest/util/gff3_file_to_proteins.pl  --gff3  $species.longest_isoform.gff3  --fasta  $genome --seqType prot >$species.pep.fa

这一部分的分析,提取出来的蛋白序列与官方发布的蛋白序列有出入,而且U等氨基酸字母会直接被改成"*",例如:

用脚本提取的蛋白序列其中一个序列:attachments-2023-09-0yQSyaWY64fb1d6b970b4.png

而在官网给的蛋白序列fa文件中,搜索这一条序列:

>ENSBTAP00000002107.8 pep primary_assembly:ARS-UCD1.2:10:91495432:91504569:-1 gene:ENSBTAG00000001605.8 transcript:ENSBTAT00000002107.8 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:DIO2 description:iodothyronine deiodinase 2 [Source:VGNC Symbol;Acc:VGNC:106710]

MGILSVDLLITLQILPVFFSNCLFLALYDSVILLKHVVLLLSRSKSTRGQWRRMLTSEGM

RCIWKSFLLDAYKQVKLGEDAPNSSVVHVSSPEGGDTSGNGAQEKTVDGTECHLLDFASP

ERPLVVNFGSATUPPFTNQLPAFSKLVEEFSSVADFLLVYIDEAHPSDGWAVPGDSSLFF

EVKKHRNQEDRCAAAHQLLERFSLPPQCRVVADRMDNNANVAYGVAFERVCIVQRQKIAY

LGGKGPFFYNLQEVRRWLEKNFSKRUKLD

这个问题怎么解决?

并且不只一个序列也不只一个基因组有这种情况

请先 登录 后评论

2 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS
  • RNA中:
    • UAG:琥珀密码子(amber codon)
    • UAA:赭石密码子(ochre codon)
    • UGA:蛋白石密码子(opal codon)
  • DNA中:
    • TAG:琥珀密码子
    • TAA:赭石密码子
    • TGA:蛋白石密码子

UAG与UGA在某些情况下也可以编码氨基酸。2007年,有研究发现UGA密码子许多硒蛋白的信使RNA中有硒半胱氨酸插入序列的存在,可以使与该序列相邻的UGA密码子编码硒半胱氨酸,而不作为终止密码子[17],随后也有研究发现某些情况下,另一终止密码子UAG也可经由类似机制编码吡咯赖氨酸[18]


可能是这个:gff3_file_to_proteins.pl  软件的bug,需要修改一下才行;


参考:https://zh.wikipedia.org/zh-hans/%E7%BB%88%E6%AD%A2%E5%AF%86%E7%A0%81%E5%AD%90

https://zh.wikipedia.org/zh-hans/%E6%A8%99%E6%BA%96%E8%9B%8B%E7%99%BD%E8%83%BA%E5%9F%BA%E9%85%B8%E5%88%97%E8%A1%A8 


本bug已经在镜像中修复,大家重新下载镜像即可;

请先 登录 后评论
暴雨

老师您好,这个脚本应该是直接封装在沙箱里了。我应该怎么改或者从哪里改?这个是我的知识盲区,或者您是否可以直接提供改好的版本。麻烦您。

请先 登录 后评论
  • 2 关注
  • 0 收藏,618 浏览
  • 提出于 2023-09-08 21:24

相似问题