我在 Tez 上的 Hive 上存储为镶木地板的桌子上运行自定义 UDAF。我们的 Hive 作业在 YARN 上运行,全部设置在 Amazon EMR 中。但是,由于我们拥有的 Parquet 数据是使用旧版本的 Parquet (1.5) 生成的,我收到一条警告,该警告正在填满 YARN 日志并导致磁盘在作业完成之前用完空间。
这是警告:
PM 警告:org.apache.parquet.CorruptStatistics:忽略统计信息,因为 created_by 无法解析(请参阅 PARQUET-251):parquet-mr 版本
它还打印堆栈轨迹。我一直试图使警告日志静音但无济于事。除了这个警告,我已经设法关闭了几乎所有类型的日志。我尝试使用此处概述的 AWS 配置修改几乎每个 Log4j 设置文件。
到目前为止我尝试过的事情:
我在tez-site.xml中设置了以下设置(以 JSON 格式编写它们,因为这是 AWS 对配置的要求)它在实际实例中当然是正确的 XML 格式。
"tez.am.log.level": "OFF", "tez.task.log.level": "OFF", "tez.am.launch.cluster-default.cmd-opts": "-Dhadoop.metrics.log.level=OFF -Dtez.root.logger=OFF,CLA", "tez.task-specific.log.level": "OFF;org.apache.parquet=OFF"
我在mapred-site.xml上有以下设置。这些设置有效地关闭了我的 YARN 日志中发生的所有日志记录,但有问题的警告除外。
"mapreduce.map.log.level": "OFF", "mapreduce.reduce.log.level": "OFF", "yarn.app.mapreduce.am.log.level": "OFF"
我在几乎所有其他log4j.properties文件中都有这些设置。我在之前的 AWS 链接中显示的列表中找到了这些设置。
"log4j.logger.org.apache.parquet.CorruptStatistics": "OFF", "log4j.logger.org.apache.parquet": "OFF", "log4j.rootLogger": "OFF, console"
老实说,在这一点上,我只想找到某种方法关闭日志并以某种方式运行工作。我读过类似的问题,例如这个链接 ,他们通过更改 log4j 设置来修复它,但这是针对 Spark 的,它似乎不适用于 Hive/Tez 和 Amazon。任何帮助表示赞赏。