经过几个阶段的惰性数据帧处理后,我需要在保存数据帧之前对其进行重新分区。但是,该.repartition()
方法需要我知道分区的数量(而不是分区的大小),这取决于处理后数据的大小,这仍然是未知的。
我想我可以懒惰地计算大小,df.memory_usage().sum()
但repartition()
似乎不接受它(标量)作为参数。
有没有办法进行这种自适应(基于数据大小)的延迟重新分区?
PS。由于这是我管道中的(几乎)最后一步,我可以通过“手动”转换为延迟和重新分区来解决这个问题(我不需要回到数据框),但我正在寻找一种更简单的方法去做这个。
PS。按分区大小重新分区也是一个非常有用的功能