0

我设置了一个转换以使用 2000 个随机分区,发现输出文件从 200 个文件(每个大约 442MB)变成了 2000 个(每个大约 48MB)文件。这有什么好担心的吗?

4

1 回答 1

2

简短的回答:不,这可能很好,并且可能不会引起问题。

然而,减小文件大小是一个相当便宜的操作,您可以通过在转换结束时使用 .coalesce(200) 来实现。这会将文件折叠在一起而不会导致随机播放。根据数据的一致性,文件大小可能存在一些差异。如果这将成为一个问题,您可以使用 .repartition(200) 代替(这将需要洗牌,增加工作的计算成本)

于 2021-08-06T19:56:44.693 回答