t2t基因组,转录组数据注释

课程实操中只用了一组转录组数据,如果有多个不同组织的二代转录组,如何分析?,以及一个混样品的三代转录组数据(用教程Trinity中单独分析代码吗),二代和三代转录组数据如何整合呢?

mkdir 18.PASA
cd 18.PASA

ln -s ../14.Repeat/4.RepeatMasker/genome.fa.masked ./genome.softmasked.fa 

fq1=$datadir/rnaseq_1.fq.gz
fq2=$datadir/rnaseq_2.fq.gz
contig=genome.softmasked.fa
threads=10   

gffread ../16.GeMoMa/Arabidopsis_thaliana.protein_coding.gff3  -g /work/data/Ath.fasta  -x  ara.cds.fa
est=ara.cds.fa  #该物种完整的est 基因表达序列 可以到NCBI 上下载(cds),也可以自己提取

####################有参的转录本预测############################################

hisat2-build $contig $contig
hisat2 --dta --new-summary -p $threads -x $contig -1 $fq1 -2 $fq2  2>hisat2.log | samtools sort -@ 10 > rnaseq.bam
samtools index  rnaseq.bam  #建立索引方便后续可视化
stringtie rnaseq.bam   -p ${threads}   -o rnaseq.gtf


####################无参的转录本预测############################################

# Trinity 基于基因组辅助的组装
##  如果是真菌细菌小基因组 基因密度高 需要加参数 --jaccard_clip  ; 连特异性文库: --SS_lib_type RF 
Trinity  --genome_guided_bam rnaseq.bam  \
 --genome_guided_max_intron 100000 --max_memory 300G --CPU $threads \
 --output trinity_gg_out --full_cleanup 
 # Trinity denovo 组装
##  如果是真菌细菌小基因组 需要加参数 --jaccard_clip 
Trinity  --seqType fq --left $fq1 --right $fq2 --output trinity_tdn_out \
 --CPU $threads --full_cleanup --max_memory 300G  #双端
 ##Trinity  --seqType fq  --output trinity_tdn_out_dir  --CPU $threads --full_cleanup --max_memory 300G  --single $fq    #单端

请先 登录 后评论

2 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

二代转录组多个样本直接合并即可:https://www.omicsclass.com/question/6317

三代数据需要组装成完整的全长转录本 (full length) 序列到est.fa 文件里面:

est=$datadir/est.fa  #该物种完整的est 基因表达序列 

请先 登录 后评论
Ti Amo

两个策略,一个是不同的转录组都做注释,然后做合并;第二种也是大部分文献里会采取的,把不同的转录组数据combine之后做一次注释。
如果选择第二种,则需要在原始数据的.gz做合并。

请先 登录 后评论