GATK SPARK 环境安装 加速GATK

GATK SPARK 环境安装


1.安装Scala 并设置环境变量


curl -fL https://github.com/coursier/coursier/releases/latest/download/cs-x86_64-pc-linux.gz | gzip -d > cs && chmod +x cs && ./cs setup --install-dir  /share/biosoft/scala/bin
export PATH=/share/biosoft/scala/bin:$PATH


2, 安装Spark 并设置环境变量:


wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-4.0.1/spark-4.0.1-bin-hadoop3.tgz
tar zxvf  spark-4.0.1-bin-hadoop3.tgz
export SPARK_HOME=/share/biosoft/spark/spark-4.0.1-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin ./run-example SparkPi # 测试Pi 计算

attachments-2025-12-gD6ILUgV693b68c7b1a25.png

3.设置 spark java环境; 版本不要太高,23 会报错

cp conf/spark-env.sh.template conf/spark-env.sh #添加下面的行
export SCALA_HOME=/share/biosoft/scala/bin/
export JAVA_HOME=/share/biosoft/java/jdk-17.0.9/
export SPARK_HOME=/share/biosoft/spark/spark-4.0.1-bin-hadoop3

4. 运行GATK spark版本:

 gatk --java-options '-Xmx100g' HaplotypeCallerSpark    --spark-master local[20]  \
        -R Arabidopsis_thaliana.TAIR10.dna.chromosome.4.fa       \
        -I p1.sorted.dedup.bam     \
        -O p1.g.vcf.gz --max-alternate-alleles 4  --sample-ploidy 2     -ERC GVCF --tmp-dir tmp


attachments-2025-12-iipkSkVu693b6e6870804.png

  • 发表于 1天前
  • 阅读 ( 34 )
  • 分类:重测序

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

744 篇文章

作家榜 »

  1. omicsgene 744 文章
  2. 安生水 365 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 90 文章
  6. rzx 85 文章
  7. 红橙子 81 文章
  8. CORNERSTONE 72 文章