1、命令:sinfo 功能:显示系统资源使用情况
其中:
第一列 PARTITION是队列名,默认能使用的队列名为debug;
第二列 AVAIL是队列可用情况,up是可用状态;down为不可用状态;
第三列 TIMELIMIT是作业运行时间限制,默认infinite没有限制;
第四列 NODES是节点数;
第五列 STATE是节点状态,alloc是已被占用节点,idle是空闲节点,comp是正在释放资源的节点,其他状态的节点都不可用,mix是该节点所有作业在运行或有程序占用cpu导致的;
第六列 NODELIST是节点列表。
sinfo的常用命令选项:
命令示例 | 功能 |
---|---|
sinfo -n gm26 | 指定节点gm26的使用情况 |
sinfo -p debug | 指定显示队列debug情况 |
2、squeue 查看作业状态
squeue得到的结果是当前账号正在运行作业的状态,如果squeue没有作业信息,说明作业已退出。
其中:
第一列 JOBID是作业号,作业号是唯一的;
第二列 PARTITION是作业运行使用的队列名;
第三列 NAME是作业名;
第四列 USER是超算账号名;
第五列 ST是作业状态,R表示正常运行,PD表示在排队,CG表示正在退出,S是管理员暂时挂起,只有R状态会计费;
第六列 TIME是作业运行时间;
第七列 NODES是作业使用的节点数;
第八列 NODELIST(REASON) 对于运行作业(R状态)显示作业使用的节点列表;对于排队作业(PD状态),显示排队的原因。
squeue的常用命令选项:
命令示例 | 功能 |
---|---|
squeue -j 3454 | 查看作业号为3454的作业信息 |
squeue -u test123 | 查看集群账号为test123的作业信息 |
squeue -p SZCS* | 查看提交到debug队列的作业信息 |
squeue -w cab03 | 查看使用到cab03节点的作业信息 |
其他选项可以通过squeue --help命令查看