问题标签 [hive-configuration]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - 命名 hive 会话有时无法工作
我在 hive tez 上运行 sqls,hive -f xxx.sql --hiveconf hive.session.id=sessionName
但在纱线资源管理器上显示如下
有时它显示正确..如何解决这个问题
hadoop - msck 是否修复触发表统计信息生成
我想知道msck repair <table>
在以下情况下在表上运行是否会为 CBO 生成表统计信息:
hive.cbo.enable=true
hive.stats.autogather=true
还是我必须使用analyze <tablename> compute statistics
.
谢谢
hadoop - 如果 Hive 的 reducer 数量与键的数量不同,会发生什么?
在 Hive 中,我经常做如下查询:
我阅读了一些 mapreduce 示例,一个 reducer 只能产生一个键。看来reducer 的数量完全取决于columnA 中的键数。
因此,为什么 hive 可以手动设置减速器的数量?
如果 columnA 中有 10 个不同的值,并且我将 reducer 的数量设置为2,会发生什么?每个reducer会重复使用5次吗?
如果 columnA 中有 10 个不同的值,并且我将 reducer 的数量设置为20,会发生什么?hive 只会生成 10 个减速器?
hive - 如何将配置单元查询结果导出到单个本地文件?
我想使用管道分隔符将配置单元查询结果导出到单个本地文件。
Hive 查询包含 order by 子句。
我尝试了以下解决方案。
解决方案1:
此解决方案正在创建多个文件。合并文件后,它会丢失数据顺序。
解决方案2:
此解决方案正在创建单个文件,但顶部有 2 行空,底部有 2 行。
我正在使用sed命令删除空行。这需要很长时间。
有没有其他有效的方法来实现这一目标?
hadoop - 验证 Hive 单查询和多查询并行性
我使用以下 hive-site.xml 属性配置了 Hive 并行性并重新启动了集群
物业 1
属性 2
为了测试并行性,我创建了以下 2 个条件:
1 . file.hql 中的单个查询并将其运行为hive -f file.hql
结果:
当 hive.exec.parallel = true 时,所用时间:28.015 秒,总 MapReduce CPU 时间:3 秒 10 毫秒
当 hive.exec.parallel = false 时,耗时:24.778 秒,总 MapReduce CPU 耗时:3 秒 90 毫秒。
2 . 如下2个不同文件中的独立查询并将其运行为nohup hive -f file1.hql & nohup hive -f file2.hql
结果:
当 hive.exec.parallel = false 时,耗时:29.391 秒,总 MapReduce CPU 耗时:1 秒 890 毫秒
问题:
如何检查上述 2 个条件是否确实并行运行?在控制台中,我看到的结果好像查询是按顺序运行的。
为什么 hive.exec.parallel = true 花费的时间更多?我怎样才能看到使用了 hive 多个阶段?
谢谢,
hadoop - 如何在直线开始时删除 ADD jar 语句
如何删除直线终端启动时发生的语句?当我开始直线时,我默认有 AD jar 语句,我没有这个 jar,这种情况下的错误消息:
当我开始 beeline 时,如何将其配置为不以 beeline 开头?
hadoop - 如何通过 Sqoop 作业通过 Hive conf
如何通过 Sqoop 导入作业传递 hive conf 参数。
我每次都使用来自 hive cli 的这个 hive conf。
pyspark - 增加 HIVE 中的最大行大小
我有这些配置的 pyspark 工作:
我在任何地方都找不到如何设置配置以max row size
增加150mb
. 我只在 impala 中找到了该命令。
提前致谢。
hadoop - hadoop.tmp.dir 不能在正确的位置工作
在我的core-site.xml中,我hadoop.tmp.dir
在另一个大HHD(/data/hadoop_tmp
)中更改了位置,这个HHD不是linux /tmp位置,然后格式化我的namenode,启动我的dfs和yarn,我相信它工作。
但是默认位置出现在同一个文件夹中,当我使用hive时,hive-jar加载在默认位置(/tmp),我的/tmp太小然后hive作业失败
我不知道为什么我的配置不起作用。
hive - Hive count(1) 导致 oom
我有一个由 cdh 6.3 构建的新集群,hive 现在准备好了,3 个节点有 30GB 内存。
我创建了一个存储为镶木地板的目标配置单元表。我将一些从另一个集群下载的 parquet 文件放到了这个 hive 表的 HDFS 目录中,当我运行时
select count(1) from tableA
我终于展示了:
查看 MR 日志,它反复显示:
parquet 文件总共只有 4.5 GB,为什么会count()
运行 oom?我应该在 MapReduce 中更改什么参数?