问题标签 [hive-configuration]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41 问题

0 投票

1 回答

97 浏览

hive - 命名 hive 会话有时无法工作

我在 hive tez 上运行 sqls，hive -f xxx.sql --hiveconf hive.session.id=sessionName 但在纱线资源管理器上显示如下

有时它显示正确..如何解决这个问题

2020-05-14T09:40:22.660

0 投票

1 回答

124 浏览

hadoop - msck 是否修复触发表统计信息生成

我想知道msck repair <table>在以下情况下在表上运行是否会为 CBO 生成表统计信息：

hive.cbo.enable=true

hive.stats.autogather=true

还是我必须使用analyze <tablename> compute statistics.

谢谢

hadoop hive hive-partitions hive-configuration

2020-06-09T13:27:20.670

0 投票

1 回答

352 浏览

hadoop - 如果 Hive 的 reducer 数量与键的数量不同，会发生什么？

在 Hive 中，我经常做如下查询：

我阅读了一些 mapreduce 示例，一个 reducer 只能产生一个键。看来reducer 的数量完全取决于columnA 中的键数。

因此，为什么 hive 可以手动设置减速器的数量？

如果 columnA 中有 10 个不同的值，并且我将 reducer 的数量设置为2，会发生什么？每个reducer会重复使用5次吗？

如果 columnA 中有 10 个不同的值，并且我将 reducer 的数量设置为20，会发生什么？hive 只会生成 10 个减速器？

hadoop hive mapreduce reduce hive-configuration

2020-06-14T08:09:14.703

0 投票

1 回答

45 浏览

hive - 如何将配置单元查询结果导出到单个本地文件？

我想使用管道分隔符将配置单元查询结果导出到单个本地文件。

Hive 查询包含 order by 子句。

我尝试了以下解决方案。

解决方案1：

此解决方案正在创建多个文件。合并文件后，它会丢失数据顺序。

解决方案2：

此解决方案正在创建单个文件，但顶部有 2 行空，底部有 2 行。

我正在使用sed命令删除空行。这需要很长时间。

有没有其他有效的方法来实现这一目标？

hive mapreduce hiveql reduce hive-configuration

2020-09-25T16:34:29.440

0 投票

1 回答

276 浏览

hadoop - 验证 Hive 单查询和多查询并行性

我使用以下 hive-site.xml 属性配置了 Hive 并行性并重新启动了集群

物业 1

属性 2

为了测试并行性，我创建了以下 2 个条件：

1 . file.hql 中的单个查询并将其运行为hive -f file.hql

结果：

当 hive.exec.parallel = true 时，所用时间：28.015 秒，总 MapReduce CPU 时间：3 秒 10 毫秒

当 hive.exec.parallel = false 时，耗时：24.778 秒，总 MapReduce CPU 耗时：3 秒 90 毫秒。

2 . 如下2个不同文件中的独立查询并将其运行为nohup hive -f file1.hql & nohup hive -f file2.hql

结果：

当 hive.exec.parallel = false 时，耗时：29.391 秒，总 MapReduce CPU 耗时：1 秒 890 毫秒

问题：

如何检查上述 2 个条件是否确实并行运行？在控制台中，我看到的结果好像查询是按顺序运行的。

为什么 hive.exec.parallel = true 花费的时间更多？我怎样才能看到使用了 hive 多个阶段？

谢谢，

hadoop hive mapreduce hive-configuration

2021-01-04T15:22:33.617

0 投票

1 回答

81 浏览

hadoop - 如何在直线开始时删除 ADD jar 语句

如何删除直线终端启动时发生的语句？当我开始直线时，我默认有 AD jar 语句，我没有这个 jar，这种情况下的错误消息：

当我开始 beeline 时，如何将其配置为不以 beeline 开头？

hadoop hive hiveql beeline hive-configuration

2021-01-27T05:42:47.413

0 投票

2 回答

98 浏览

hadoop - 如何通过 Sqoop 作业通过 Hive conf

如何通过 Sqoop 导入作业传递 hive conf 参数。

我每次都使用来自 hive cli 的这个 hive conf。

hadoop hive sqoop apache-tez hive-configuration

2021-02-04T09:51:30.947

0 投票

1 回答

42 浏览

pyspark - 增加 HIVE 中的最大行大小

我有这些配置的 pyspark 工作：

我在任何地方都找不到如何设置配置以max row size增加150mb. 我只在 impala 中找到了该命令。

提前致谢。

pyspark hive hive-configuration

2021-07-08T08:51:51.703

0 投票

0 回答

20 浏览

hadoop - hadoop.tmp.dir 不能在正确的位置工作

在我的core-site.xml中，我hadoop.tmp.dir在另一个大HHD（/data/hadoop_tmp）中更改了位置，这个HHD不是linux /tmp位置，然后格式化我的namenode，启动我的dfs和yarn，我相信它工作。

但是默认位置出现在同一个文件夹中，当我使用hive时，hive-jar加载在默认位置（/tmp），我的/tmp太小然后hive作业失败

我不知道为什么我的配置不起作用。

hadoop hive config hive-configuration

2021-07-28T02:48:52.990

0 投票

1 回答

36 浏览

hive - Hive count(1) 导致 oom

我有一个由 cdh 6.3 构建的新集群，hive 现在准备好了，3 个节点有 30GB 内存。

我创建了一个存储为镶木地板的目标配置单元表。我将一些从另一个集群下载的 parquet 文件放到了这个 hive 表的 HDFS 目录中，当我运行时

select count(1) from tableA

我终于展示了：

查看 MR 日志，它反复显示：

parquet 文件总共只有 4.5 GB，为什么会count()运行 oom？我应该在 MapReduce 中更改什么参数？

hive mapreduce out-of-memory hiveql hive-configuration

2021-09-05T06:38:07.230

1 2 3 4 5 6 7 8 9 10

问题标签 [hive-configuration]

Reference