1

我正在尝试从 HDFS 文件(csv)创建 dask 数据帧。HDFS 中存储的 csv 文件有很多部分文件。

在 read_csv api 调用中:

dd.read_csv("hdfs:<some path>/data.csv")

出现以下错误:

OSError: Could not open file: <some path>/data.csv, mode: rb Path is not a file: <some path>/data.csv

实际上 /data.csv 是包含许多零件文件的目录。我不确定是否有一些不同的 API 可以读取此类 hdfs csv。

4

1 回答 1

2

当您仅传递目录名称时,Dask 不知道您打算从哪些文件中读取。您应该传递一个 glob 字符串用于搜索文件或明确的文件列表,例如,

df = dd.read_csv("hdfs:///some/path/data.csv/*.csv")

注意冒号后的前导'/':所有 hdfs 路径都以这种方式开始。

于 2017-09-29T02:44:48.170 回答