在用GATK的markduolicates时候,总是发生这样的情况,检查了脚本,bam文件都没问题,那怕只是单独运行一个样本也不行,还做了一个flagstat,现在也不知道哪里发生了问题,该怎么办
作业失败总结(JobID:21887)
作业目的:使用GATK MarkDuplicates对136个样本的BAM文件进行PCR重复标记,输出到指定目录。
运行环境
集群:SLURM管理的HPC集群
节点资源:1个节点,60核CPU,200GB内存
软件:GATK4.6.2.0(通过conda安装)GNUParallel用于并发管理
作业配置:
脚本通过sbatch提交,申请整个节点 (--nodes=1--cpus-per-task=60--mem=200G)
使用parallel并发运行4个样本(每个样本分配 -Xmx16g Java堆内存)
临时目录为tmp/,输出目录04_VariantCalling/markup/
观察到的现象:
1.作业运行约11分钟后停止更新日志。
2.查看样本F的日志(Logs/markdup_F.log),最后一条记录为Read20,000,000 records,时间16:20:11,之后无任何输出。
3.使用 srun --jobid=21887 ps aux | grepjava发现4个对应的Java进程均处于TI状态(T=暂停,1=多线程),CPU和内存使用正常,但进程被冻结。
4.输出目录为空,无任何BAM文件生成。
5.磁盘空间充足(使用率61%)
6.用户无权限执行scontrol,无法查看详细资源限制。
已做的排查:
,确认样本列表文件存在且包含136个样本。
确认输入BAM文件(03_Align/*.sorted.bam)存在且可读。
·检查临时目录,存在多个GATK运行时生成的子目录,但无异常。
通过srun看到进程被暂停,但未被杀死。
还做了flagsta,结果解读
·总比对率:96.27%
·正确配对率:82.82%
·跨染色体配对:约10.2%(其中高质量约1.5%)。重复标记:0(正常,尚未标记)