我正在尝试从 HDFS 文件(csv)创建 dask 数据帧。HDFS 中存储的 csv 文件有很多部分文件。
在 read_csv api 调用中:
dd.read_csv("hdfs:<some path>/data.csv")
出现以下错误:
OSError: Could not open file: <some path>/data.csv, mode: rb Path is not a file: <some path>/data.csv
实际上 /data.csv 是包含许多零件文件的目录。我不确定是否有一些不同的 API 可以读取此类 hdfs csv。