hadoop - 分桶表上的 Hive 查询很慢

Question

我有 2 张桌子。
一个是桶装的，另一个不是——除了它们是相同的。
都存储为兽人并分区。
在给定分区上查询分桶表比在同一分区上查询其孪生表要慢得多。
是预期的吗？
如果不是，可能是什么原因？
如果是，那么我是否应该得出结论，我持有分桶表的唯一动机是连接和采样，在这种情况下，持有表的 2 个副本 - 一个分桶，另一个不分桶（听起来很浪费）？

score 0 · Accepted Answer

目前 HIVE 不支持对 where 子句中的列进行 Bucketing 相关的查询优化。但是，在连接操作期间，分桶将是有益的。在上面提到的用例中，分区和 ORC 以及按排序顺序存储的 DATA 应该会给您最好的响应。

hadoop - 分桶表上的 Hive 查询很慢

1 回答 1

Related

Reference