我正在尝试在 32 个节点的集群上运行 UPC-NAS 基准测试(为 256 个线程编译)。当我运行它时,为 247 个线程建立了 rsh 连接,它终止并给出如下错误
p0_11350: p4_error: Child process exited while making connection to remote process on dell16: 0
506 rm_l_237_24446: (26.785156) net_send: corm_11947: (215.339844) net_srm_l_1rm_24412: (26.785156) net_send: could not write to fd=4, errnrrrm_l_127_5013: (121.984375) net_send: could not w rite to fd=5, errno = 32
谁能指出问题出在哪里?
它对于较小的线程(如 64、128 等)运行良好。