rocks7 SGE任务管理配置

rocks7 SGE任务管理配置

集群中的主机分2种:控制节点(mater)和计算节点(slave)。其中控制节点只在一台机器上部署,该控制节点也同时作为计算节点;其它主机全部是计算节点。计算资源是由host的slots构成。可以选取集群中部分的hosts,定义为host用户组。队列则表示集群中计算资源的容器。例如,名称叫all.q的队列对应着集群中全部的计算资源。若不想让某些用户使用集群全部的计算资源,则定义一个新的队列名,且该队列仅能使用集群部分的计算资源。使用SGE集群进行计算的时候,为了进行并行化计算,需要设置并行化参数。


1.常用命令:


systemctl start rpcbind nfs-server
systemctl enable rpcbind nfs-server
systemctl disable iptables.service
netstat -lntup|grep sge


2.主节点,安装:


/opt/gridengine/install_qmaster

/opt/gridengine/install_execd  选装

3.计算节点,安装:


计算节点修改/etc/hosts:
127.0.0.1       localhost.localdomain localhost
192.168.1.99    rocks rocks.local
10.1.1.254      compute-0-0.local compute-0-0

运行安装:/opt/gridengine/install_execd


3.SGE 的配置


qconf - 此命令为群集和队列配置提供用户界面。

qconf [options]

a: add; d: delete; m: modify; s: show; 后面跟的l: list


常用命令说明
qconf -ae hostname
    添加执行主机
qconf -de hostname
    删除执行主机
qconf -sel
    显示执行主机列表
qconf -ah hostname
    添加管理主机
qconf -dh hostname
    删除管理主机
qconf -sh
    显示管理主机列表
qconf -as hostname
    添加提交主机
qconf -ds hostname
    删除提交主机
qconf -ss
    显示提交主机列表
qconf -ahgrp groupname
    添加主机用户组
qconf -mhgrp groupname
    修改主机用户组
qconf -shgrp groupname
    显示主机用户组成员
qconf -shgrpl
    显示主机用户组列表
qconf -aq queuename
    添加集群队列
qconf -dq queuename
    删除集群队列
qconf -mq queuename
    修改集群队列配置
qconf -sq queuename
    显示集群队列配置
qconf -sql
    显示集群队列列表
qconf -ap PE_name
    添加并行化环境
qconf -mp PE_name
    修改并行化环境
qconf -dp PE_name
    删除并行化环境
qconf -sp PE_name
    显示并行化环境
qconf -spl
    显示并行化环境名称列表
qstat -f
    显示执行主机状态
qstat -u user
    查看用户的作业
qhost
    显示执行主机资源信息




1)节点分组配置


在创建队列前需要创建节点hostgroup,

#创建@general 这个SGE hostgroup,

qconf -ahgrp @general


#把compute-0-0.local , compute-0-0.local 这两个host添加进@general 这个hostgroup,

qconf -aattr hostgroup hostlist "compute-0-0.local  compute-0-0.local" @general



#也可以用qconf -mhgrp @general 修改添加相应的host。

#显示有哪些hostgroup,

qconf -shgrpl



#删除@general 这个hostgroup

qconf -dhgrp @general


2)队列配置

qconf -mq all.q  #修改
#slots 1,[compute-0-0.master=40],[compute-0-1.master=40], [compute-0-2.master=40]

  • hostlist:放上自己所需的主机组名,如 @allhosts
  • seq_no:队列编号,可以用来表示优先级,0 代表最优先
  • priority:优先级,默认为0(最优先),可以调大使优先级降低
  • slots:表示所使用的主机CPU数,默认为1,可以设置一个统一的值,也可以针对单台主机设定各自的CPU数,如 1,[host1=4],[host2=8]
  • shell:默认使用/bin/csh,可以改为其他的shell,我改成了/bin/sh
  • shell_start_mode:shell的起始模式,默认为posix_complicant,我改成了unix_bahavior,可以识别shell第一行的指定程序(如 #!/bin/bash)




qconf -mc   #添加
num_proc p INT <= YES YES 0 0


每个计算节点资源配置
qconf -rattr exechost complex_values slots=40,num_proc=40,h_vmem=64g,virtual_free=64G  compute-0-0.master
initial_state         default

  • 发表于 2020-12-29 14:17
  • 阅读 ( 110 )
  • 分类:linux

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

389 篇文章

作家榜 »

  1. omicsgene 389 文章
  2. 安生水 217 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. CORNERSTONE 72 文章
  6. 红橙子 55 文章
  7. 生信老顽童 48 文章
  8. landy 37 文章