PASA 记录

PASA是我们进行基因结构预测的时候常用的软件,其最早是开发用于拟南芥的基因结构注释,目前在动植物的注释中被广泛应用。

PASA是我们进行基因结构预测的时候常用的软件,其最早是开发用于拟南芥的基因结构注释,目前在动植物的注释中被广泛应用。

一、PASA使用准备文件:

1. genome.softmasked.fa # 软掩码之后的基因组
2. all_transcripts.fasta  # 有参、无参的转录组预测转录本;以及est.fa序列
3. all_transcripts.fasta.clean # 2的序列进行seqclean过滤之后的结果
4. FL_accs.txt # 全长转录本序列的ID名称
5. tdn.accs # denovo 组装的ID(无参转录本预测的序列)
6.  SQLite 或者是mysql数据库
7. alignAssembly.config # PASA运行的


二、PASA运行命令:

Launch_PASA_pipeline.pl  -c  -C -r -R -g  -T  -t   -u    -f  --TDN --CPU 24 --ALIGNERS blat,minimap2  --TRANSDECODER --MAX_INTRON_LENGTH 1000000 
# 注意,数据库的完整路径是写在了alignAssembly.config 这个配置文件里面

三、过程

1. create_sqlite_cdnaassembly_db.dbi -c alignAssembly.config -S 'PASApipeline/PASApipeline-v2.5.2/schema/cdna_alignment_sqliteschema' -r
samtools faidx all_transcripts.fasta.clean
2. PASApipeline/PASApipeline-v2.5.2/scripts/upload_transcript_data.dbi -M 'pasa.sqlite' -t all_transcripts.fasta.clean -T tdn.accs -f FL_accs.txt 
3. PASApipeline/PASApipeline-v2.5.2/scripts/run_spliced_aligners.pl --aligners blat,minimap2 --genome genome.softmasked.fa --transcripts all_transcripts.fasta.clean -I 1000000 -N 1 --CPU 24
4. PASApipeline/PASApipeline-v2.5.2/scripts/import_spliced_alignments.dbi -M 'pasa.sqlite'  -A blat -g blat.spliced_alignments.gff3
5. PASApipeline/PASApipeline-v2.5.2/scripts/import_spliced_alignments.dbi -M 'pasa.sqlite'  -A minimap2 -g minimap2.spliced_alignments.gff3
6. PASApipeline/PASApipeline-v2.5.2/pasa-plugins/transdecoder/TransDecoder.LongOrfs -t all_transcripts.fasta.clean  
7. PASApipeline/PASApipeline-v2.5.2/pasa-plugins/transdecoder/TransDecoder.Predict -t all_transcripts.fasta.clean 
8. PASApipeline/PASApipeline-v2.5.2/scripts/extract_FL_transdecoder_entries.pl all_transcripts.fasta.clean.transdecoder.gff3 > all_transcripts.fasta.clean.transdecoder.gff3.fl_accs
9. PASApipeline/PASApipeline-v2.5.2/scripts/update_fli_status.dbi -M 'pasa.sqlite' -f all_transcripts.fasta.clean.transdecoder.gff3.fl_accs
10. PASApipeline/PASApipeline-v2.5.2/scripts/validate_alignments_in_db.dbi -M 'pasa.sqlite' -g genome.softmasked.fa -t all_transcripts.fasta.clean --MAX_INTRON_LENGTH 1000000 --CPU 24   --MIN_PERCENT_ALIGNED 75  --NUM_BP_PERFECT_SPLICE_BOUNDARY 0  --MIN_AVG_PER_ID 95  > alignment.validations.output
11. PASApipeline/PASApipeline-v2.5.2/scripts/update_alignment_status.dbi -M 'pasa.sqlite' < alignment.validations.output  > pasa_run.log.dir/alignment.validation_loading.output
12. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M pasa.sqlite' -v -A -P blat > pasa.sqlite.valid_blat_alignments.gff3
13. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -v -A -P blat -B  > pasa.sqlite.valid_blat_alignments.bed
14. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -v -A -P blat -T  > pasa.sqlite.valid_blat_alignments.gtf
15. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -f -A -P blat > pasa.sqlite.failed_blat_alignments.gff3
16. /PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -f -A -P blat -B  > pasa.sqlite.failed_blat_alignments.bed
17. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -f -A -P blat -T  > pasa.sqlite.failed_blat_alignments.gtf
18. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -v -A -P minimap2 > pasa.sqlite.valid_minimap2_alignments.gff3
19. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -v -A -P minimap2 -B  > pasa.sqlite.valid_minimap2_alignments.bed
20. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -f -A -P minimap2 > pasa.sqlite.failed_minimap2_alignments.gff3
21. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -f -A -P minimap2 -B  > pasa.sqlite.failed_minimap2_alignments.bed
22. PASApipeline/PASApipeline-v2.5.2/scripts/PASA_transcripts_and_assemblies_to_GFF3.dbi -M 'pasa.sqlite' -f -A -P minimap2 -T  > pasa.sqlite.failed_minimap2_alignments.gtf
23. PASApipeline/PASApipeline-v2.5.2/scripts/polyA_site_transcript_mapper.dbi -M 'pasa.sqlite' -c all_transcripts.fasta.cln -g genome.softmasked.fa -t all_transcripts.fasta > pasa_run.log.dir/polyAsite_analysis.out
24. PASApipeline/PASApipeline-v2.5.2/scripts/polyA_site_summarizer.dbi -M 'pasa.sqlite' -g genome.softmasked.fa  > pasa.sqlite.polyAsites.fasta
25. PASApipeline/PASApipeline-v2.5.2/scripts/reassign_clusters_via_valid_align_coords.dbi -M 'pasa.sqlite'  > pasa_run.log.dir/cluster_reassignment_by_valid_alignment_coords.default.out
26. PASApipeline/PASApipeline-v2.5.2/scripts/assemble_clusters.dbi -G genome.softmasked.fa  -M 'pasa.sqlite'  -T 24  > pasa.sqlite.pasa_alignment_assembly_building.ascii_illustrations.out


四、出现的相关报错

1. 前一步的validate_alignments_in_db.dbi 没跑出来导致没有 alignment.validations.output这个文件

sh: alignment.validations.output: No such file or directory
Error, cmd: update_alignment_status.dbi -M 'pasa.sqlite'  < alignment.validations.output  > pasa_run.log.dir/alignment.validation_loading.output died with ret 256 No such file or directory at PASApipeline/PASApipeline-v2.5.2/PerlLib/Pipeliner.pm line 187

是因为配置文件里面写参数的时候后面加了#开头的注释,导致validate_alignments_in_db.dbi 命令里面存在注释,导致无法正常运行,删除注释之后运行无问题

0 条评论

请先 登录 后评论
Ti Amo
Ti Amo

60 篇文章

作家榜 »

  1. omicsgene 719 文章
  2. 安生水 357 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 87 文章
  6. rzx 83 文章
  7. 红橙子 79 文章
  8. CORNERSTONE 72 文章