3

我有这些配置的 pyspark 工作:

self.spark = SparkSession.builder.appName("example") \
.config("hive.exec.dynamic.partition", "true") \
.config("hive.exec.dynamic.partition.mode", "nonstrict") \
.config("hive.exec.max.dynamic.partitions", "5000000") \
.config("hive.exec.max.dynamic.partitions.pernode", "1000000") \
.enableHiveSupport() \
.getOrCreate()

我在任何地方都找不到如何设置配置以max row size增加150mb. 我只在 impala 中找到了该命令。

提前致谢。

4

1 回答 1

1

没有这样的配置,Hive因为 Hive 不是全内存的,并且可以处理几乎无限大小的行。2Gb单个字符串的大小可以达到最大,列数可以达到数万,尽管您可能需要(很可能)数千行才能放入单个容器内存中,但通常映射器或缩减器大小超过 1G 和可以增加。

于 2021-07-08T20:08:37.363 回答