0

我试图避免使用dask.compute(list_of_dask_computations). 在我拥有的代码中,我必须在 dask 数据框中创建一些分类列并调用dask.DataFrame.categorize以使类别成为已知的。但我想与dask.compute(list_of_dask_computations). 但我不明白怎么做。

一个例子描述如下:

import dask
df = dask.datasets.timeseries()
df['letter'] = df['name'].str[0].astype('category')
mean_x = df['x'].mean()
mean_y = df['y'].mean()

# How to combine these two computations below
mean_x_val, mean_y_val = dask.compute(mean_x, mean_y)
df=df.categorize(columns=['letter']) # or df['letter']=df['letter'].cat.as_known()

感谢您提供的任何帮助。

阿尔诺。

4

1 回答 1

0

我的理解是在内部df.categorize隐式调用compute。我的猜测是,没有一种简单的方法可以同时将其与其他计算调用结合起来。理想情况下会改变。

于 2020-04-18T19:29:12.150 回答