GFF文件格式不标准,第三列只有mRNA处理方法

GFF文件格式不标准,第三列只有mRNA处理方法

gff文件第三列一般有gene,mRNA,CDS,exon等等信息,但是有时候没有gene信息,只有mRNA信息,这种情况一般是一个基因只注释了一个转录本的基因组,这个时候我们可以批量的处理一下,添加上gene行信息,也就是mRNA信息直接用于基因信息,方便我们的分析流程处理数据:

可以用awk命令批量添加gene行,把mRNA的ID作为基因ID,并且在mRNA行添加Parent信息:

 awk -F"[\t=]"  'BEGIN{OFS="\t"}{if($3=="mRNA"){print $1,$2,"gene",$4,$5,$6,$7,$8,$9"="$10 ; print $1,$2,$3,$4,$5,$6,$7,$8,$9"="$10"Parent="$10;}else{print $0}}' PO.gene.gff >PO.gene.gff1 

最终结果如下,左边为原始gff文件,右边为更改后的文件,有遇到类似问题的小伙伴可以根据命令来修改一下:

attachments-2019-05-TMYwVybH5cd137e0ab776.jpg

更多AWK命令使用技巧见:linux系统使用

生物信息入门到精通必修基础课:linux系统使用biolinux搭建生物信息分析环境linux命令处理生物大数据perl入门到精通perl语言高级R语言画图R语言快速入门与提高

  • 发表于 2019-05-07 15:48
  • 阅读 ( 6811 )
  • 分类:linux

1 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

654 篇文章

作家榜 »

  1. omicsgene 654 文章
  2. 安生水 325 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. 红橙子 78 文章
  6. CORNERSTONE 72 文章
  7. rzx 67 文章
  8. xun 66 文章