我想利用 MPI 检查点功能来挽救我的工作。根据https://wiki.mpich.org/mpich/index.php/Checkpointing的建议
我应该能够将 SIGUSR1 发送到 mpiexec (在我的情况下,我将其发送到 mpirun )以触发检查点。但是,当我这样做时,我没有看到我用 -ckpoint-prefix 指定的检查点目录中保存的任何文件
这是我的 mpirun -info 输出
HYDRA build details:
Version: 4.1 Update 1
Release Date: 20130522
Process Manager: pmi
Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi
Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs
Checkpointing libraries available: blcr
Demux engines available: poll select
我的命令行是:
mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp
我发送信号的方式是kill -s USR1 1900
,1900是miprun的pid。每当我发送信号时,程序就会结束。虽然没有崩溃。有人有 MPI 检查点的经验吗?