GATK SPARK 环境安装 加速GATK

GATK SPARK 环境安装


1.安装Scala 并设置环境变量


curl -fL https://github.com/coursier/coursier/releases/latest/download/cs-x86_64-pc-linux.gz | gzip -d > cs && chmod +x cs && ./cs setup --install-dir  /share/biosoft/scala/bin
export PATH=/share/biosoft/scala/bin:$PATH


2, 安装Spark 并设置环境变量:


wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-4.0.1/spark-4.0.1-bin-hadoop3.tgz
tar zxvf  spark-4.0.1-bin-hadoop3.tgz
export SPARK_HOME=/share/biosoft/spark/spark-4.0.1-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin ./run-example SparkPi # 测试Pi 计算

attachments-2025-12-gD6ILUgV693b68c7b1a25.png

3.设置 spark java环境; 版本不要太高,23 会报错

cp conf/spark-env.sh.template conf/spark-env.sh #添加下面的行
export SCALA_HOME=/share/biosoft/scala/bin/
export JAVA_HOME=/share/biosoft/java/jdk-17.0.9/
export SPARK_HOME=/share/biosoft/spark/spark-4.0.1-bin-hadoop3

4. 运行GATK spark版本:

 gatk --java-options '-Xmx100g' HaplotypeCallerSpark    --spark-master local[20]  \
        -R Arabidopsis_thaliana.TAIR10.dna.chromosome.4.fa       \
        -I p1.sorted.dedup.bam     \
        -O p1.g.vcf.gz --max-alternate-alleles 4  --sample-ploidy 2     -ERC GVCF --tmp-dir tmp


attachments-2025-12-iipkSkVu693b6e6870804.png

  • 发表于 2025-12-11 15:22
  • 阅读 ( 413 )
  • 分类:重测序

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

759 篇文章

作家榜 »

  1. omicsgene 759 文章
  2. 安生水 370 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 96 文章
  6. rzx 88 文章
  7. 红橙子 81 文章
  8. Ti Amo 76 文章