转录组比对中,同源性很高的两个基因比对不正确

在做转录组分析的时候,A和B基因相似性很高,外显子上面只相差几个碱基,差异很小,内含子差异大一些,在做转录组表达定量的时候发现,将A基因的count值全部归到B基因上。

A和B是复制基因,序列同源性很高,在RNA-seq分析时,会出现将A基因的表达归在B基因上的情况。(例如在不存在A基因只存在B基因的材料中,却会得到较高的A基因的FPKM,B基因却为0)

请问,如果遇到上诉这样的情况,应该如何处理?

RNA-seq分析表达定量命令如下:

cd $workdir  #回到工作目录

mkdir -p $workdir/3.map/hisat2

cd $workdir/3.map/hisat2

cat /work/config | while read i

do

hisat2 -p 6 --rg-id=${i} --rg SM:${i} --rg LB:${i} --rg PL:ILLUMINA \

-x $REF_INDEX --dta --rna-strandness RF \

-1 $workdir/2.data_qc/${i}_1.clean.fq.gz \

-2 $workdir/2.data_qc/${i}_2.clean.fq.gz \

-S ${i}.sam 2>${i}.summary 

done

cat /work/config | while read i

do

samtools sort  --threads 6 -m 18G -o ${i}.bam ${i}.sam

done

cat /work/config | while read i

do

samtools index ${i}.bam

done

cd $workdir/

mkdir 4.expression

cd 4.expression

cat /work/config | while read i

do

htseq-count --format bam --order pos --mode intersection-strict \

--stranded yes --type exon \

--idattr gene_id $workdir/3.map/hisat2/${i}.bam $GTF > ${i}_gene.tsv

done

请先 登录 后评论