Braker 有转录组数据预测基因 多样本转录组

多样本转录组
source ./env.sh

###################################################################
cd $workdir

#链接基因组
ln -s 01.Repeat/08.RepeatMasker/genome.softmasked.fa .
ln -s 01.Repeat/08.RepeatMasker/genome.hardmasked.fa .
ln -s $datadir/genome.fasta  genome.fa


#拆分基因组不同染色体,方便后续软件使用多线程加快注释速度
##
seqkit split -p 2 genome.softmasked.fa --out-dir ref.split.softmasked
seqkit split -p 2 genome.hardmasked.fa --out-dir ref.split.hardmasked
##

mkdir 02.Braker
cd 02.Braker
#BRAKER2官方教程: https://github.com/Gaius-Augustus/BRAKER
#也就是GeneMakr, GenomeThreader, ProHint,我们还需要手动安装这些软件。但其中只有GeneMark是必须的,因为我们更多是利用RNA-seq数据进行模型训练,而GenomeThreader, ProHint是利用同源蛋白进行注释才用到,其中GenomeTrheads是处理近源蛋白,而ProHint是处理未知距离的蛋白。
#基因组命名应该简单,最好就是">contig1"或">tig000001"

#设置变量
threads=10                  # 线程数

#转录组数据
#fq1=$datadir/SRR7476717_1.fastq.gz
#fq2=$datadir/SRR7476717_2.fastq.gz
fq=$datadir/ath.rnaseq.fq.gz
est=$datadir/est.chr4.s.fa
protein=$datadir/protein.fasta
#genome=../genome.softmasked.fa
genome=../genome.fa

######################################################################
#Hist2_stringtie 比对与组装
###################################################################

# 为hisat2 构建参考序列
hisat2-build $genome $genome
# 使用 hisat2 进行比对,若果有多个样本的数据,就运行多次比对,注意修改输入的 fastq 文件和输出的 bam 文件
#双端read
for i in leaf root stem flower seed;do 
hisat2 --dta --new-summary -p $threads -x $genome -1 $datadir/${i}_1.fastq.gz -2 $datadir/${i}_2.fastq.gz  2>$i.hisat2.log| samtools sort -@ 10 > $i.hisat.bam
samtools index  $i.hisat.bam  #建立索引方便后续可视化
stringtie $i.hisat.bam   -p ${threads}   -o $i.rnaseq.gtf
done
#单端read
#hisat2 --dta --new-summary -p $threads -x $genome -U $fq   2>hisat2.log| samtools sort -@ 10 > rnaseq.bam
ls *.rnaseq.gtf >assembly_GTF_list.txt
stringtie  --merge -p $threads -o rnaseq.gtf   assembly_GTF_list.txt

gffread rnaseq.gtf -o rnaseq.gff
cat rnaseq.gff | sed 's/transcript/expressed_sequence_match/g' | \
sed 's/exon/match_part/g' | sed s/StringTie/est_gff\:est2genome/ >rnaseq_maker_input.gff
#TransDecoder提取orf
cufflinks_gtf_genome_to_cdna_fasta.pl rnaseq.gtf  ../genome.softmasked.fa > transcripts.fasta
cufflinks_gtf_to_alignment_gff3.pl rnaseq.gtf > transcripts.gff3
TransDecoder.LongOrfs -t transcripts.fasta
TransDecoder.Predict -t transcripts.fasta
cdna_alignment_orf_to_genome_orf.pl \
     transcripts.fasta.transdecoder.gff3 \
     transcripts.gff3 \
     transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3
#########################################
#运行braker  augustus 和geneMarkET 基因注释
#注意  genemark  需要key文件,
cp /share/work/biosoft/GeneMarkS/gm_key_64 ~/.gm_key
braker.pl --species=$species \
   --genome=../genome.softmasked.fa \
   --softmasking \
   --bam=stem.hisat.bam,flower.hisat.bam,root.hisat.bam,seed.hisat.bam,leaf.hisat.bam \
   --cores=$threads \
   --useexisting   \
   --gff3 --skip_fixing_broken_genes


#–fungus 基因组为真菌
#–softmasking 基因组是soft masked
#–useexisting 不从头训练,而是使用已有的物种参数
#--UTR=on 根据RNA-Seq 比对情况训练UTR参数,必须有--softmasking 和--bam


  • 发表于 2022-11-02 17:31
  • 阅读 ( 1047 )
  • 分类:基因组学

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

658 篇文章

作家榜 »

  1. omicsgene 658 文章
  2. 安生水 328 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. 红橙子 78 文章
  6. CORNERSTONE 72 文章
  7. xun 68 文章
  8. rzx 67 文章