-1

我们必须处理通过 Internet 提取 gzip/bzip 文件,有时它们超过数 GB(例如 15gb wiki dump)。

有没有一种方法可以由多台计算机而不是一台计算机来提取?也许是集群中每个节点读取标头以及 X 和 Y 之间的字节,将其写入共享文件夹?

或者任何其他可以加速该过程的方式?

4

1 回答 1

0

您是否考虑过使用 gzip/bzip 的并行替代方案?

在您使用 bzip 的场景中,pbzip2是使用 pthread 加速下载的并行替代方案。此外,gzip 的并行替代方案是pgzip

于 2018-08-06T23:47:38.253 回答