0

我正在尝试在 32 个节点的集群上运行 UPC-NAS 基准测试(为 256 个线程编译)。当我运行它时,为 247 个线程建立了 rsh 连接,它终止并给出如下错误

p0_11350:  p4_error: Child process exited while making connection to remote process on dell16: 0
506 rm_l_237_24446: (26.785156) net_send: corm_11947: (215.339844) net_srm_l_1rm_24412: (26.785156) net_send: could not write to fd=4, errnrrrm_l_127_5013: (121.984375) net_send: could not w    rite to fd=5, errno = 32

谁能指出问题出在哪里?

它对于较小的线程(如 64、128 等)运行良好。

4

1 回答 1

2

Errno 32 是 EPIPE ( #define EPIPE 32 /* Broken pipe */)。

我建议,达到某些文件描述符限制(检查ulimit -a)。或者网络限制。或者网络故障。

我还应该提到,p4 是古老的。它可能是一些内部限制。p4 的发展在 > 15 年前就停止了。就包含在 Debian Stable 中而言,这是一种非常稳定的代码。

那么,为什么要使用 mpich1?你能移到不那么古老的 mpich2 吗?

于 2011-03-22T00:05:22.710 回答