我试图使用 Dask 读取一个非常大的 csv 文件的文件夹(它们都适合内存,它们非常大,但我有很多 RAM) - 我当前的解决方案看起来像:
val = 'abc'
df = dd.read_csv('/home/ubuntu/files-*', parse_dates=['date'])
# 1 - df_pd = df.compute(get=dask.multiprocessing.get)
ddf_selected = df.map_partitions(lambda x: x[x['val_col'] == val])
# 2 - ddf_selected.compute(get=dask.multiprocessing.get)
1(然后使用熊猫)还是 2 更好?只是想知道该怎么做?