我试图在我的 SLURM 19.05 集群中设置抢占,但我无法弄清楚如何让抢占按我的计划工作。
基本上,我有两个 QOS。
$ sacctmgr show qos format=name,priority,preempt
Name Priority Preempt
---------- ---------- ----------
normal 0
premium 5000 normal
这些是我的抢占配置中的相关设置:
# SCHEDULING
SelectType=select/cons_res
FastSchedule=1
SelectTypeParameters=CR_CPU_Memory
PreemptType=preempt/qos
PreemptMode=SUSPEND,GANG
PriorityType=priority/multifactor
PriorityWeightFairshare=10000
PriorityWeightAge=10000
PriorityWeightJobSize=10000
PriorityFavorSmall=YES
PriorityWeightQOS=10000
PartitionName=Compute OverSubscribe=FORCE:1 State=UP Nodes=compute01,compute02
我的计划是让premium
作业抢占normal
作业,暂停normal
作业,直到premium
作业在集群中完成运行。
但是,我观察到的抢占似乎每 30 秒按顺序划分并暂停两个作业。我在配置文件中是否遗漏了什么,或者 SLURM 无法提供我计划的抢占,而我不希望对资源有任何时间片?