Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有 2 张桌子。 一个是桶装的,另一个不是——除了它们是相同的。 都存储为兽人并分区。 在给定分区上查询分桶表比在同一分区上查询其孪生表要慢得多。 是预期的吗? 如果不是,可能是什么原因? 如果是,那么我是否应该得出结论,我持有分桶表的唯一动机是连接和采样,在这种情况下,持有表的 2 个副本 - 一个分桶,另一个不分桶(听起来很浪费)?
目前 HIVE 不支持对 where 子句中的列进行 Bucketing 相关的查询优化。但是,在连接操作期间,分桶将是有益的。在上面提到的用例中,分区和 ORC 以及按排序顺序存储的 DATA 应该会给您最好的响应。