2

在我当前的项目中,我正在使用具有快速压缩格式的 Orc 文件,我运行的任何查询都只使用一个映射器运行。我尝试配置 mapred.max.split.size 和 mapred.min.split.size,但是没有显示映射器数量的任何变化。reducer 数量足够好,但由于映射器是单个映射器,运行简单查询的时间就像。

按 x 从 z 组中选择 x,max(y) ;完成映射器需要将近 20 分钟。我还应该做些什么来增加映射器的数量。

请不要告诉它使用分区或存储桶,因为我已经在我的表中使用了它们。

4

1 回答 1

0

尝试使用 tblproperties orc.stripe.size。

条带大小的默认值为 256 MB,从技术上讲,每个条带有一个映射器。随着单条大小的减小,您可以增加映射器的数量。

于 2016-04-05T12:11:52.500 回答