我们必须处理通过 Internet 提取 gzip/bzip 文件,有时它们超过数 GB(例如 15gb wiki dump)。
有没有一种方法可以由多台计算机而不是一台计算机来提取?也许是集群中每个节点读取标头以及 X 和 Y 之间的字节,将其写入共享文件夹?
或者任何其他可以加速该过程的方式?
我们必须处理通过 Internet 提取 gzip/bzip 文件,有时它们超过数 GB(例如 15gb wiki dump)。
有没有一种方法可以由多台计算机而不是一台计算机来提取?也许是集群中每个节点读取标头以及 X 和 Y 之间的字节,将其写入共享文件夹?
或者任何其他可以加速该过程的方式?