slurm 学习(一)

2022-09-29 17:25:24 浏览数 (3)

1、命令:sinfo 功能:显示系统资源使用情况

sinfo命令显示.pngsinfo命令显示.png

其中:

第一列 PARTITION是队列名,默认能使用的队列名为debug;

第二列 AVAIL是队列可用情况,up是可用状态;down为不可用状态;

第三列 TIMELIMIT是作业运行时间限制,默认infinite没有限制;

第四列 NODES是节点数;

第五列 STATE是节点状态,alloc是已被占用节点,idle是空闲节点,comp是正在释放资源的节点,其他状态的节点都不可用,mix是该节点所有作业在运行或有程序占用cpu导致的;

第六列 NODELIST是节点列表。

sinfo的常用命令选项:

命令示例

功能

sinfo -n gm26

指定节点gm26的使用情况

sinfo -p debug

指定显示队列debug情况

2、squeue 查看作业状态

squeue得到的结果是当前账号正在运行作业的状态,如果squeue没有作业信息,说明作业已退出。

squeue命令显示.pngsqueue命令显示.png

其中:

第一列 JOBID是作业号,作业号是唯一的;

第二列 PARTITION是作业运行使用的队列名;

第三列 NAME是作业名;

第四列 USER是超算账号名;

第五列 ST是作业状态,R表示正常运行,PD表示在排队,CG表示正在退出,S是管理员暂时挂起,只有R状态会计费;

第六列 TIME是作业运行时间;

第七列 NODES是作业使用的节点数;

第八列 NODELIST(REASON) 对于运行作业(R状态)显示作业使用的节点列表;对于排队作业(PD状态),显示排队的原因。

squeue的常用命令选项:

命令示例

功能

squeue -j 3454

查看作业号为3454的作业信息

squeue -u test123

查看集群账号为test123的作业信息

squeue -p SZCS*

查看提交到debug队列的作业信息

squeue -w cab03

查看使用到cab03节点的作业信息

其他选项可以通过squeue --help命令查看

0 人点赞