dask - dask 数据帧的延迟重新分区

Question

经过几个阶段的惰性数据帧处理后，我需要在保存数据帧之前对其进行重新分区。但是，该.repartition()方法需要我知道分区的数量（而不是分区的大小），这取决于处理后数据的大小，这仍然是未知的。

我想我可以懒惰地计算大小，df.memory_usage().sum()但repartition()似乎不接受它（标量）作为参数。

有没有办法进行这种自适应（基于数据大小）的延迟重新分区？

PS。由于这是我管道中的（几乎）最后一步，我可以通过“手动”转换为延迟和重新分区来解决这个问题（我不需要回到数据框），但我正在寻找一种更简单的方法去做这个。

PS。按分区大小重新分区也是一个非常有用的功能

score 2 · Accepted Answer

不幸的是，Dask 的任务图构造会立即发生，并且无法以分区数量无法立即知道或延迟计算的方式进行分区（或执行任何操作）。

正如您所建议的，您可以切换到延迟等较低级别的系统。在这种情况下，我将切换到使用期货并跟踪结果的大小，从而即时触发适当的分区合并。不过，这可能比预期的要复杂得多。

1 回答 1