利用seqtk subseq工具提取完整基因序列,需要提供想要提取的基因的染色体位置.bed文件。
#得到对应基因的cds序列,脚本会读取第一个文件的第一列的ID信息,根据ID提取相应的序列:
seqkit grep -f WRKY_IDlist_final.txt ../01.data_prepare/Arabidopsis_thaliana.gene.cds.fasta -o WRKY_cds_final.fa
那得到对应基因的完整基因序列的命令如下,但是运行失败。
seqkit grep -f WRKY_IDlist_final.txt ../01.data_prepare/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa -o WRKY_gene_final.fa