在我当前的项目中,我正在使用具有快速压缩格式的 Orc 文件,我运行的任何查询都只使用一个映射器运行。我尝试配置 mapred.max.split.size 和 mapred.min.split.size,但是没有显示映射器数量的任何变化。reducer 数量足够好,但由于映射器是单个映射器,运行简单查询的时间就像。
按 x 从 z 组中选择 x,max(y) ;完成映射器需要将近 20 分钟。我还应该做些什么来增加映射器的数量。
请不要告诉它使用分区或存储桶,因为我已经在我的表中使用了它们。