dask - 从不同目录中的镶木地板文件（HDFS）创建 dask 数据帧的最佳方法

翻译自：https://stackoverflow.com/questions/49422766 2018-03-22T07:21:35.707

889 次

我正在尝试从存储不同 HDFS 目录的大量镶木地板文件中创建 dask 数据框。我尝试了两种方法，但它们似乎都需要很长时间。

方法 1：使用全局路径调用 api read_parquet。例如：

dd.read_parquet("some path/**/*.parquet")

方法 2：从每个目录创建 dask 数据框，然后在所有数据框列表上调用 dd.concat。对于每个目录：

dd.read_parquet("some path/dirx/*.parquet")

然后连接：

dd.concat([list of df from each dir],interleave_partitions=True)

在这两种方法中，创建数据框都需要很长时间。

请建议阅读这些镶木地板文件的最佳方法。

0 回答 0