问题标签 [mpich]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1324 浏览

cluster-computing - Open MPI/MPICH - 如果节点终止会发生什么?

我想知道如果 OpenMPI/MPICH2 集群的一个节点终止会发生什么?是否有某种机制可以容忍这种情况并继续执行?

感谢您的回答海因里希

0 投票
1 回答
1211 浏览

cluster-computing - Linpack 有时启动,有时不启动,但没有任何改变

我在带有 Xeon 处理器的 2 节点集群上安装了 Linpack。有时如果我用这个命令启动 Linpack:

mpiexec -np 28 -print-rank-map -f /root/machines.HOSTS ./xhpl_intel64

linpack 启动并打印输出,有时我只看到打印的 mpi 映射,然后什么也没有。对我来说,这似乎是随机行为,因为我不会在调用之间进行任何更改,并且如前所述,Linpack 有时会启动,有时不会。在top我可以看到xhpl_intel64已经创建了进程并且它们大量使用 CPU 但是当观察节点之间的流量时,iftop它告诉我它没有发送任何内容。

我使用 MPICH2 作为 MPI 实现。这是我的 HPL.dat:

编辑2:

我现在只是让程序运行一段时间,30 分钟后它告诉我:

这是一个mpi问题吗?

你知道这可能是什么类型的问题吗?

0 投票
1 回答
1263 浏览

c++ - 在 MPI_Send / MPI_Recv 对中,如果未正确同步,数据会丢失吗?

让我解释。考虑 4 个从节点 1、2、3、4 和一个主节点 0。现在,1、2、3、4 需要向 0 发送数据。0 以以下格式接收此数据。

显然,不能假设 1、2、3 和 4 将数据发送到 0 的顺序(因为它们都彼此独立运行——2 可能在 1 之前发送数据)。因此,假设 2 确实在 1 之前发送了它的数据(例如),在 MPI_Recv 命令中的源标签“proc”与处理器“1”匹配之前,上面显示的 0 中的接收循环不会启动,因为外部 for 循环强制这个排序。

因此,即使已经有来自 2、3 和 4 的数据,循环也会“等待”直到有数据从 1 传入,然后才能执行任何其他操作。如果从 2,3 和 4 传来的数据会发生什么情况在 1 点之前到达?从某种意义上说,一旦来自“1”的数据确实开始到达然后 proc 增加到 2,那么它最初试图从 2 接收的数据就不再存在了,它是否可以被“遗忘”?如果它被“遗忘”,整个分布式模拟就会挂起,因为它永远无法正确处理特定从属进程的数据。

谢谢,本。

0 投票
2 回答
9872 浏览

mpi - 设置代码块以运行 MPICH2

问候大家!

我是一名学生,目前在设置代码块时遇到问题。谁能帮助我或指导我如何配置代码块以便它可以运行 MPI?

我已经安装了代码块和 MPICH2。

但是当我尝试编译代码时,它不起作用。代码块未检测到 MPI。

任何人都可以一步一步地向我展示来配置它。真的很欣赏它:)

0 投票
2 回答
5111 浏览

mpi - 建议一个基准程序来比较 MPICH 和 OpenMPI

我是 HPC 新手,手头的任务是在一个集群上对 MPICH 和 OpenMPI 进行性能分析和比较,该集群由运行在 ClusterVisionOS 上的配备双核 AMD Opteron 处理器的 IBM 服务器组成。

我应该选择哪个基准程序来比较 MPICH 和 OpenMPI 实现?

我不确定高性能 Linpack Benchmark 是否可以提供帮助,因为我没有尝试测量集群本身的性能.. 请建议..

谢谢

0 投票
1 回答
760 浏览

benchmarking - 在 32 节点集群上运行 256 个 NAS 基准测试线程时出现“p4_error:子进程退出错误”

我正在尝试在 32 个节点的集群上运行 UPC-NAS 基准测试(为 256 个线程编译)。当我运行它时,为 247 个线程建立了 rsh 连接,它终止并给出如下错误

谁能指出问题出在哪里?

它对于较小的线程(如 64、128 等)运行良好。

0 投票
1 回答
2522 浏览

mpi - MPICH/OpenMPI 中的容错

我有两个问题-

Q1。除了检查点/回滚之外,还有更有效的方法来处理 MPI 中的错误情况吗?我看到如果一个节点“死亡”,程序会突然停止。有没有办法在节点死亡后继续执行?(如果以准确性为代价,则没有问题)

Q2。我在“http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation”中读到,OpenMPI 具有更好的容错性,最近 MPICH-2 也提出了类似的功能..有人知道它们是什么以及如何使用它们吗?是“模式”吗?他们可以在第一季度所述的情况下提供帮助吗?

请回复。谢谢你。

0 投票
1 回答
1203 浏览

windows - 无法让 cabal 在 Windows 上找到 haskell-mpi 的 mpi 库

问题解决了!

  1. 按照此处发布的说明进行操作
  2. 打开您的环境变量(我的电脑 -> 属性(在上下文菜单中)-> 高级)
  3. 添加或创建一个新的环境变量C_INCLUDE_PATH,使其指向 MPI 的包含目录。就我而言,/c/program files/mpich2/include.
  4. 添加或创建一个新的环境变量LIBRARY_PATH,使其指向 MPI 的 lib 目录。就我而言,/c/program files/mpich2/lib
  5. 以某种方式隐藏 libmpi.a。如果需要,您可以稍后解决此问题。这是一个 hack,但你不能不这样做就构建 haskell-mpi,因为 ld 会失败。我将它重命名为 _libmpi.a

现在 haskell-mpi 应该建立在 windows 上。预计会有更多麻烦,但它建立了,它解决了我的问题。


我想在我的一个大学实验室的实验室机器上使用 haskell-mpi 来完成我的并行计算课程的期末项目,但是我在尝试让 haskell-mpi 构建针对 MPICH2 时遇到了麻烦。

haskell-mpi 几乎完全没有文档记录,挖掘他们的 git 存储库帮助我编写了一些示例程序,但没有帮助我在 Windows 上设置它。在我的个人 linux 系统上,我可以毫无困难地针对 MPICH2 设置和运行 haskell-mpi。

问题可能在于 cabal 之一,MPICH2 的安装方式,或者使用 haskell-mpi 的 cabal 配置,因此选择了标签。

为了排除故障,我愿意在这里进行试验,并根据需要添加更多信息,但最终我将无法再访问这些机器。

我在我将运行它的实验室中拥有管理员权限,所以如果问题出在 MPICH2 安装本身,我确实可以重新安装它。

当我尝试安装 haskell-mpi 时,cabal 失败如下:

以下是我尝试为 --extra-lib-dirs 和 --extra-include-dirs 提供的内容:

我尝试使用短路径PROGRA~1和这些标志的各种排列重新排序我放置这些标志的位置,逃避反冲。所以我认为这不会有帮助。我需要知道mpi依赖的实际含义,并弄清楚我将如何满足它,以便这个库可以真正构建。以下是目前上述两个文件夹中的内容:

库:

包括:

这里有什么可以识别的缺失吗?

在这一点上,我很困惑。几乎任何建议都会有所帮助。

真诚的,巴伦德。

PS:这可能应该被标记为“haskell-mpi”,但我不允许制作新标签。我想没有其他人真正使用它。

编辑:按照唐斯的建议,

我安装了 MingGW 和 MSYS。运行 mingw-get update 后,我使用 mingw32-get 检索 libtools、mingw32-utils 和 mingw32-binutils。我使用 Windows 配置 GUI 为整个系统设置了以下环境变量:

echo $LIBRARY_PATH现在两者都按预期工作,echo %LIBRARY_PATH%这并不奇怪。环境变量已设置。取得进展。

cabal install haskell-mpi仍然产生与以前相同的输出。

和ld玩了半天,巨大的红鲱鱼……

我不得不从 ld 中隐藏 libmpi.a 才能让它工作,但是 haskell-mpi 现在可以构建了!

将逐步详细信息放在顶部。

0 投票
1 回答
420 浏览

mpi - MPICH 和 OpenMPI 中的错误处理程序

除了 MPI_ERROR_RETURN 和 MPI_ERRORS_ARE_FATAL 之外,在 OpenMPI 和 MPICH 中是否实现了任何错误处理程序?哪个实现在处理错误方面更好?请建议一个链接以获取有关相同信息的更多信息..

0 投票
2 回答
2658 浏览

mpi - Hydra MPI 的最佳进展是什么

我正在研究 MPICH2 自动附带的新流程管理器,但直到现在我无法弄清楚这个实现有什么大的进步,有人知道一个好的教程或有一些经验吗?
argonne wiki 有点太简单了:http ://wiki.mcs.anl.gov/mpich2/index.php/Using_the_Hydra_Process_Manager