mysql - 与 mysql 相比，需要更多时间从 hive 表中的 2.3 亿条记录中过滤

Question

我正在使用hive表来执行 sql 之一以从 2.3 亿条记录中获取一些记录，但使用 map reduce 过程执行需要 300 秒，并mysql在不到 1 秒的时间内获取此信息。为什么hive要花更多的时间？

我正在使用带有引擎的Ambari集群。Tez我对将数据库移动到hadoop.

score 2 · Accepted Answer

MySQL 在特定查询上可能比 Hive 表现更好的原因有很多。从这个意义上说，您的查询过于广泛。

最可能的原因是 MySQL 中的索引。如果您有大量数据，MySQL 可以使用索引优化查询。Hive 读取所有数据并对其进行处理。MySQL 可以优化正在处理的数据。

还有其他原因。where如果数据存储在分区中，也许 MySQL 基于该子句在分区修剪方面做得更好。

不知道数据和查询，就没有概括。对于单个查询，这并不奇怪。一般来说，Hive 在需要处理大量数据的查询上会更快。

1 回答 1