0

我想利用 MPI 检查点功能来挽救我的工作。根据https://wiki.mpich.org/mpich/index.php/Checkpointing的建议

我应该能够将 SIGUSR1 发送到 mpiexec (在我的情况下,我将其发送到 mpirun )以触发检查点。但是,当我这样做时,我没有看到我用 -ckpoint-prefix 指定的检查点目录中保存的任何文件

这是我的 mpirun -info 输出 HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select

我的命令行是:

mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp

我发送信号的方式是kill -s USR1 1900,1900是miprun的pid。每当我发送信号时,程序就会结束。虽然没有崩溃。有人有 MPI 检查点的经验吗?

4

1 回答 1

0

我想我想通了。我将 USR1 发送到 mpirun,但我应该将其发送到 mpiexec.hydra。尽管一些在线文章说 mpirun 和 mpiexec 是一回事。

于 2016-04-04T03:15:25.847 回答