在做转录组分析的时候,A和B基因相似性很高,外显子上面只相差几个碱基,差异很小,内含子差异大一些,在做转录组表达定量的时候发现,将A基因的count值全部归到B基因上。
A和B是复制基因,序列同源性很高,在RNA-seq分析时,会出现将A基因的表达归在B基因上的情况。(例如在不存在A基因只存在B基因的材料中,却会得到较高的A基因的FPKM,B基因却为0)
请问,如果遇到上诉这样的情况,应该如何处理?
RNA-seq分析表达定量命令如下:
cd $workdir #回到工作目录
mkdir -p $workdir/3.map/hisat2
cd $workdir/3.map/hisat2
cat /work/config | while read i
do
hisat2 -p 6 --rg-id=${i} --rg SM:${i} --rg LB:${i} --rg PL:ILLUMINA \
-x $REF_INDEX --dta --rna-strandness RF \
-1 $workdir/2.data_qc/${i}_1.clean.fq.gz \
-2 $workdir/2.data_qc/${i}_2.clean.fq.gz \
-S ${i}.sam 2>${i}.summary
done
cat /work/config | while read i
do
samtools sort --threads 6 -m 18G -o ${i}.bam ${i}.sam
done
cat /work/config | while read i
do
samtools index ${i}.bam
done
cd $workdir/
mkdir 4.expression
cd 4.expression
cat /work/config | while read i
do
htseq-count --format bam --order pos --mode intersection-strict \
--stranded yes --type exon \
--idattr gene_id $workdir/3.map/hisat2/${i}.bam $GTF > ${i}_gene.tsv
done