20 请教用gtf文件获取基因与mRNA的对应关系的问题

部分分析数据及结果.zip我在ensembl上下载了一个基因组,该基因组是用gtf格式进行注释的,用perl脚本无法建立基因与mRNA的对应关系(mRNAid_to_geneid/ geneid_to_mRNAid),分析结果不能显示mRNA ID

于是我在网站搜索到GFFGTF格式转换(https://www.omicsclass.com/article/355)的方法,并用该命令进行了格式转换,但发现转换后的gff3文件内容不全,第三列凡是gene的行都没有了,第三列transcript变成了mRNA,该行后面多了个geneID=,其余行很多注释信息都没了

用这个转换格式后的gff3文件也没法完成基因与mRNA的对应关系分析。分析时显示 Use of uninitialized value $pid in concatenation (.) or string at mRNAid_to_geneid.pl line 38, <IN> line 3.等错误信息。生成的文件将gene IDmRNA ID显示在一行内。

于是我尝试将gtf文件中的内容进行了替换,手动改成gff格式,主要修改内容如下:

原名称

修改后名称

gene_id "

ID=

gene_version "

version=

gene_source "

source=

gene_biotype "

biotype=

transcript_id "

Parent=

transcript_version "

transversion=

transcript_source "

transsource=

transcript_biotype "

transbiotype=

transcript

mRNA (第三列的transcript换成mRNA)

将格式修改后,运行脚本,其结果与用gffread转换格式后分析获得的文件相同,还是无法完成分析。至此,再没其他办法,老师写的perl脚本太深奥,看了半天无从下手。

所以请问,gtf文件是否可以手动修改后使用?我手动修改的无法完成分析,不知道问题出在哪里?如果不能用手动修改,那有什么好的办法可转换成gff?有无针对gtf注释进行分析的脚本?

附件说明:

file1  gtf注释文件(部分)

file2  gffread命令转换格式后的gff3文件,无gene

file3  上述格式转换后分析获得的mRNA2geneID文件

file4  手动修改gtf后的文件


请先 登录 后评论

最佳答案 2020-01-12 21:37

脚本要求输入gff格式的文件才可以正常运行,不要输入gtf格式的文件,会报错; 请 下载参考基因组里面对应的gff文件再运行此脚本。

另外,gff文件是可以转换成gtf文件,但是gtf文件无法转换成gff文件。

请先 登录 后评论

其它 1 个回答

biocat

谢谢老师解答,我再请问,如果在原有的脚本上修改可以实现对gtf文件的分析吗?容易修改吗?

请先 登录 后评论