我正在尝试从存储不同 HDFS 目录的大量镶木地板文件中创建 dask 数据框。我尝试了两种方法,但它们似乎都需要很长时间。
方法 1:使用全局路径调用 api read_parquet。例如:
dd.read_parquet("some path/**/*.parquet")
方法 2:从每个目录创建 dask 数据框,然后在所有数据框列表上调用 dd.concat。对于每个目录:
dd.read_parquet("some path/dirx/*.parquet")
然后连接:
dd.concat([list of df from each dir],interleave_partitions=True)
在这两种方法中,创建数据框都需要很长时间。
请建议阅读这些镶木地板文件的最佳方法。