问题标签 [hive-configuration]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
97 浏览

hive - 命名 hive 会话有时无法工作

我在 hive tez 上运行 sqls,hive -f xxx.sql --hiveconf hive.session.id=sessionName 但在纱线资源管理器上显示如下

有时它显示正确..如何解决这个问题

0 投票
1 回答
124 浏览

hadoop - msck 是否修复触发表统计信息生成

我想知道msck repair <table>在以下情况下在表上运行是否会为 CBO 生成表统计信息:

hive.cbo.enable=true

hive.stats.autogather=true

还是我必须使用analyze <tablename> compute statistics.

谢谢

0 投票
1 回答
352 浏览

hadoop - 如果 Hive 的 reducer 数量与键的数量不同,会发生什么?

在 Hive 中,我经常做如下查询:

我阅读了一些 mapreduce 示例,一个 reducer 只能产生一个键。看来reducer 的数量完全取决于columnA 中的键数。

因此,为什么 hive 可以手动设置减速器的数量?

如果 columnA 中有 10 个不同的值,并且我将 reducer 的数量设置为2,会发生什么?每个reducer会重复使用5次吗?

如果 columnA 中有 10 个不同的值,并且我将 reducer 的数量设置为20,会发生什么?hive 只会生成 10 个减速器?

0 投票
1 回答
45 浏览

hive - 如何将配置单元查询结果导出到单个本地文件?

我想使用管道分隔符将配置单元查询结果导出到单个本地文件。

Hive 查询包含 order by 子句。

我尝试了以下解决方案。

解决方案1:

此解决方案正在创建多个文件。合并文件后,它会丢失数据顺序。

解决方案2:

此解决方案正在创建单个文件,但顶部有 2 行空,底部有 2 行。

我正在使用sed命令删除空行。这需要很长时间。

有没有其他有效的方法来实现这一目标?

0 投票
1 回答
276 浏览

hadoop - 验证 Hive 单查询和多查询并行性

我使用以下 hive-site.xml 属性配置了 Hive 并行性并重新启动了集群

物业 1

属性 2

为了测试并行性,我创建了以下 2 个条件:

1 . file.hql 中的单个查询并将其运行为hive -f file.hql

结果:

当 hive.exec.parallel = true 时,所用时间:28.015 秒,总 MapReduce CPU 时间:3 秒 10 毫秒

当 hive.exec.parallel = false 时,耗时:24.778 秒,总 MapReduce CPU 耗时:3 秒 90 毫秒。

2 . 如下2个不同文件中的独立查询并将其运行为nohup hive -f file1.hql & nohup hive -f file2.hql

结果:

当 hive.exec.parallel = false 时,耗时:29.391 秒,总 MapReduce CPU 耗时:1 秒 890 毫秒

问题:

如何检查上述 2 个条件是否确实并行运行?在控制台中,我看到的结果好像查询是按顺序运行的。

为什么 hive.exec.parallel = true 花费的时间更多?我怎样才能看到使用了 hive 多个阶段?

谢谢,

0 投票
1 回答
81 浏览

hadoop - 如何在直线开始时删除 ADD jar 语句

如何删除直线终端启动时发生的语句?当我开始直线时,我默认有 AD jar 语句,我没有这个 jar,这种情况下的错误消息:

当我开始 beeline 时,如何将其配置为不以 beeline 开头?

0 投票
2 回答
98 浏览

hadoop - 如何通过 Sqoop 作业通过 Hive conf

如何通过 Sqoop 导入作业传递 hive conf 参数。

我每次都使用来自 hive cli 的这个 hive conf。

0 投票
1 回答
42 浏览

pyspark - 增加 HIVE 中的最大行大小

我有这些配置的 pyspark 工作:

我在任何地方都找不到如何设置配置以max row size增加150mb. 我只在 impala 中找到了该命令。

提前致谢。

0 投票
0 回答
20 浏览

hadoop - hadoop.tmp.dir 不能在正确的位置工作

在我的core-site.xml中,我hadoop.tmp.dir在另一个大HHD(/data/hadoop_tmp)中更改了位置,这个HHD不是linux /tmp位置,然后格式化我的namenode,启动我的dfs和yarn,我相信它工作。

但是默认位置出现在同一个文件夹中,当我使用hive时,hive-jar加载在默认位置(/tmp),我的/tmp太小然后hive作业失败

我不知道为什么我的配置不起作用。

0 投票
1 回答
36 浏览

hive - Hive count(1) 导致 oom

我有一个由 cdh 6.3 构建的新集群,hive 现在准备好了,3 个节点有 30GB 内存。

我创建了一个存储为镶木地板的目标配置单元表。我将一些从另一个集群下载的 parquet 文件放到了这个 hive 表的 HDFS 目录中,当我运行时

select count(1) from tableA

我终于展示了:

查看 MR 日志,它反复显示:

parquet 文件总共只有 4.5 GB,为什么会count()运行 oom?我应该在 MapReduce 中更改什么参数?