slurm查看系统资源和作业状态
本页目录
sinfo 查看系统资源
sinfo 得到的结果是当前账号可使用的队列资源信息,如下图所示:
其中,
第一列 PARTITION 是队列名。
第二列 AVAIL 是队列可用情况,如果显示 up 则是可用状态;如果是 inact 则是不可用状态。
第三列 TIMELIMIT 是作业运行时间限制,默认是 infinite 没有限制。
第四列 NODES 是节点数。
第五列 STATE 是节点状态,idle 是空闲节点,alloc 是已被占用节点,comp 是正在释放资源的节点,其他状态的节点都不可用。
第六列 NODELIST 是节点列表。
sinfo 的常用命令选项:
命令示例 | 功能 |
---|---|
sinfo -n g12345 | 指定显示节点 g12345 的使用情况 |
sinfo -p gpu | 指定显示队列 gpu 情况 |
其他选项可以通过 sinfo --help 查询
squeue 查看作业状态
squeue 得到的结果是当前账号的作业运行状态,如果 squeue 没有作业信息,说明作业已退出。
其中,
第一列 JOBID 是作业号,作业号是唯一的。
第二列 PARTITION 是作业运行使用的队列名。
第三列 NAME 是作业名。
第四列 USER 是超算账号名。
第五列 ST 是作业状态,R(RUNNING)表示正常运行,PD(PENDING)表示在排队,CG(COMPLETING)表示正在退出,S 是管理员暂时挂起,CD(COMPLETED)已完成,F(FAILED)作业已失败。只有 R 状态会计费。
第六列 TIME 是作业运行时间。
第七列 NODES 是作业使用的节点数。
第八列 NODELIST(REASON)对于运行作业(R 状态)显示作业使用的节点列表;
对于排队作业(PD 状态),显示排队的原因。
– AssociationJobLimit:作业达到其最大允许的作业数限制。
– AssociationResourceLimit:作业达到其最大允许的资源限制。
– AssociationTimeLimit:作业达到时间限制。
– BadConstraints:作业含有无法满足的约束。
– BeginTime:作业最早开始时间尚未达到。
– Cleaning:作业被重新排入分区,并且仍旧在执行之前运行的清理工作。
– Dependency:作业等待一个依赖的作业结束。
– FrontEndDown:没有前端节点可用于执行此作业。
– InactiveLimit:作业达到系统非激活限制。
– InvalidAccount:作业用户无效。
– InvalidQOS:作业QOS无效。
– JobHeldAdmin:作业被系统管理员挂起。
– JobHeldUser:作业被用户自己挂起。
– JobLaunchFailure:作业无法被启动,有可能因为文件系统故障、无效程序名等。
– Licenses:作业等待相应的授权。
– NodeDown:作业所需的节点宕机。
– NonZeroExitCode:作业停止时退出代码非零。
– PartitionDown:作业所需的分区出于DOWN状态。
– PartitionInactive:作业所需的分区处于Inactive状态。
– PartitionNodeLimit:作业所需的节点超过所用分区当前限制。
– PartitionTimeLimit:作业所需的分区达到时间限制。
– Priority:作业所需的分区存在高等级作业或预留。
– Prolog:作业的PrologSlurmctld前处理程序仍旧在运行。
– QOSJobLimit:作业的QOS达到其最大作业数限制。
– QOSResourceLimit:作业的QOS达到其最大资源限制。
– QOSTimeLimit:作业的QOS达到其时间限制。
– ReqNodeNotAvail:作业所需的节点无效,如节点宕机。
– Reservation:作业等待其预留的资源可用。
– Resources:作业等待其所需的资源可用。
– SystemFailure:Slurm系统失效,如文件系统、网络失效等。
– TimeLimit:作业超过去时间限制。
– QOSUsageThreshold:所需的QOS阈值被违反。
– WaitingForScheduling:等待被调度中。
squeue 的 常用命令选项:
命令示例 | 功能 |
---|---|
squeue -j 123456 | 查看作业号为 123456 的作业信息 |
squeue -u para04 | 查看超算账号为 para04 的作业信息 |
squeue -p gpu | 查看超算账号为 para04 的作业信息 |
squeue -u para04 | 查看提交到 gpu 队列的作业信息 |
squeue -w c123 | 查看使用到 c123 节点的作业信息 |
其他选项可通过 squeue --help 命令查看