GATK做去重的时候卡住

在用GATK的markduolicates时候,总是发生这样的情况,检查了脚本,bam文件都没问题,那怕只是单独运行一个样本也不行,还做了一个flagstat,现在也不知道哪里发生了问题,该怎么办

作业失败总结(JobID:21887)

作业目的:使用GATK MarkDuplicates对136个样本的BAM文件进行PCR重复标记,输出到指定目录。

运行环境

集群:SLURM管理的HPC集群

节点资源:1个节点,60核CPU,200GB内存

软件:GATK4.6.2.0(通过conda安装)GNUParallel用于并发管理

作业配置:

脚本通过sbatch提交,申请整个节点 (--nodes=1--cpus-per-task=60--mem=200G)

使用parallel并发运行4个样本(每个样本分配 -Xmx16g Java堆内存)

临时目录为tmp/,输出目录04_VariantCalling/markup/

观察到的现象:

1.作业运行约11分钟后停止更新日志。

2.查看样本F的日志(Logs/markdup_F.log),最后一条记录为Read20,000,000 records,时间16:20:11,之后无任何输出。

3.使用 srun --jobid=21887 ps aux | grepjava发现4个对应的Java进程均处于TI状态(T=暂停,1=多线程),CPU和内存使用正常,但进程被冻结。

4.输出目录为空,无任何BAM文件生成。

5.磁盘空间充足(使用率61%)

6.用户无权限执行scontrol,无法查看详细资源限制。

已做的排查:

,确认样本列表文件存在且包含136个样本。

确认输入BAM文件(03_Align/*.sorted.bam)存在且可读。

·检查临时目录,存在多个GATK运行时生成的子目录,但无异常。

通过srun看到进程被暂停,但未被杀死。

还做了flagsta,结果解读

·总比对率:96.27%

·正确配对率:82.82%

·跨染色体配对:约10.2%(其中高质量约1.5%)。重复标记:0(正常,尚未标记)

请先 登录 后评论
  • 0 关注
  • 0 收藏,27 浏览
  • 余风 提出于 2天前

相似问题