二代转录组多个样本直接合并即可:https://www.omicsclass.com/question/6317
三代数据需要组装成完整的全长转录本 (full length) 序列到est.fa 文件里面:
est=$datadir/est.fa #该物种完整的est 基因表达序列
课程实操中只用了一组转录组数据,如果有多个不同组织的二代转录组,如何分析?,以及一个混样品的三代转录组数据(用教程Trinity中单独分析代码吗),二代和三代转录组数据如何整合呢?
mkdir 18.PASA
cd 18.PASA
ln -s ../14.Repeat/4.RepeatMasker/genome.fa.masked ./genome.softmasked.fa
fq1=$datadir/rnaseq_1.fq.gz
fq2=$datadir/rnaseq_2.fq.gz
contig=genome.softmasked.fa
threads=10
gffread ../16.GeMoMa/Arabidopsis_thaliana.protein_coding.gff3 -g /work/data/Ath.fasta -x ara.cds.fa
est=ara.cds.fa #该物种完整的est 基因表达序列 可以到NCBI 上下载(cds),也可以自己提取
####################有参的转录本预测############################################
hisat2-build $contig $contig
hisat2 --dta --new-summary -p $threads -x $contig -1 $fq1 -2 $fq2 2>hisat2.log | samtools sort -@ 10 > rnaseq.bam
samtools index rnaseq.bam #建立索引方便后续可视化
stringtie rnaseq.bam -p ${threads} -o rnaseq.gtf
####################无参的转录本预测############################################
# Trinity 基于基因组辅助的组装
## 如果是真菌细菌小基因组 基因密度高 需要加参数 --jaccard_clip ; 连特异性文库: --SS_lib_type RF
Trinity --genome_guided_bam rnaseq.bam \
--genome_guided_max_intron 100000 --max_memory 300G --CPU $threads \
--output trinity_gg_out --full_cleanup
# Trinity denovo 组装
## 如果是真菌细菌小基因组 需要加参数 --jaccard_clip
Trinity --seqType fq --left $fq1 --right $fq2 --output trinity_tdn_out \
--CPU $threads --full_cleanup --max_memory 300G #双端
##Trinity --seqType fq --output trinity_tdn_out_dir --CPU $threads --full_cleanup --max_memory 300G --single $fq #单端