hive - 如何将配置单元查询结果导出到单个本地文件？

Question

我想使用管道分隔符将配置单元查询结果导出到单个本地文件。

Hive 查询包含 order by 子句。

我尝试了以下解决方案。

解决方案1：

hive -e 'insert overwrite local directory '/problem1/solution' fields terminated by '|' select * from table_name order by rec_date'

此解决方案正在创建多个文件。合并文件后，它会丢失数据顺序。

解决方案2：

beeline -u 'jdbc:hive2://server_ip:10000/db_name' --silent --outputformat=dsv --delimiterForDSV='|' -e 'select * from table_name order by rec_date' > /problem1/solution

此解决方案正在创建单个文件，但顶部有 2 行空，底部有 2 行。

我正在使用sed命令删除空行。这需要很长时间。

有没有其他有效的方法来实现这一目标？

score 2 · Accepted Answer

尝试这些设置以在单个减速器上执行 ORDER BY：

set hive.optimize.sampling.orderby=false; --disable parallel ORDER BY

或者尝试手动设置reducer的数量：

set mapred.reduce.tasks=1;

hive - 如何将配置单元查询结果导出到单个本地文件？

1 回答 1

Related

Reference