python - 与 pathos.multiprocessing 并行安全地写入文件

Question

pathos.multiprocessing众所周知，它比 Python 中的库具有优势multiprocessing，因为前者使用dill而不是pickle并且可以序列化更广泛的函数和其他东西。

pool.map()但是，当使用将结果逐行写入文件时pathos，就会遇到一些麻烦。如果写入中的所有进程ProcessPool逐行写入单个文件，它们会相互干扰同时写入一些行并破坏工作。在使用普通multiprocessing包时，我能够让进程写入自己的单独文件，以当前进程 ID 命名，如下所示：

example_data = range(100)
def process_point(point):
    output = "output-%d.gz" % mpp.current_process().pid
    with gzip.open(output, "a+") as fout:
        fout.write('%d\n' % point**2)

然后，这段代码运行良好：

import multiprocessing as mpp
pool = mpp.Pool(8)
pool.map(process_point, example_data)

但是这段代码没有：

from pathos import multiprocessing as mpp
pool = mpp.Pool(8)
pool.map(process_point, example_data)

并抛出AttributeError：

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-10-a6fb174ec9a5> in <module>()
----> 1 pool.map(process_point, example_data)

/usr/local/lib/python2.7/dist-packages/processing-0.52_pathos-py2.7-linux-x86_64.egg/processing/pool.pyc in map(self, func, iterable, chunksize)
    128         '''
    129         assert self._state == RUN
--> 130         return self.mapAsync(func, iterable, chunksize).get()
    131
    132     def imap(self, func, iterable, chunksize=1):

/usr/local/lib/python2.7/dist-packages/processing-0.52_pathos-py2.7-linux-x86_64.egg/processing/pool.pyc in get(self, timeout)
    371             return self._value
    372         else:
--> 373             raise self._value
    374
    375     def _set(self, i, obj):

AttributeError: 'module' object has no attribute 'current_process'

没有current_process()in pathos，我找不到任何类似的东西。有任何想法吗？

score 2 · Accepted Answer

我是pathos作者。虽然您的答案适用于这种情况，但最好使用 inside 的分叉，multiprocessing在pathos相当钝的位置找到：pathos.helpers.mp.

这为您提供了与的一对一映射multiprocessing，但具有更好的序列化。因此，您将使用pathos.helpers.mp.current_process.

抱歉，它既没有记录也不明显……我应该至少改进这两个问题中的一个。

score 2 · Accepted Answer

这个简单的技巧似乎可以完成这项工作：

import multiprocessing as mp
from pathos import multiprocessing as pathos_mp
import gzip

example_data = range(100)
def process_point(point):
    output = "output-%d.gz" % mp.current_process().pid
    with gzip.open(output, "a+") as fout:
        fout.write('%d\n' % point**2)

pool = pathos_mp.Pool(8)
pool.map(process_point, example_data)

换句话说，可以pathos用于并行计算，以及multiprocessing用于获取当前进程ID的普通包，这将正常工作！

python - 与 pathos.multiprocessing 并行安全地写入文件

2 回答 2

Related

Reference