python-3.x - 使用带有 concat(to_date) 的时间戳字段是在 Impala 中查询前一天的最有效方法吗？

翻译自：https://stackoverflow.com/questions/54290264 2019-01-21T12:43:54.167

67 次

我正在使用 python 库 Impyla 在 python 脚本中使用 Impala 从 HDFS 查询数据。具体数据是代理数据，并且有很多。我有一个每天运行的脚本来提取前一天并运行统计信息。目前我正在使用devicereceipttime该查询的字段，该字段存储为时间戳。

from impala.dbapi import connect
from impala.util import as_pandas
import pandas as pd

#Pull desired features from the proxy_realtime_p table
cursor.execute('select request, count(*) as count \
from default.proxy_realtime_p \
where devicereceipttime BETWEEN concat(to_date(now() - interval 1 days), " 00:00:00") and concat(to_date(now() - interval 1 days), " 23:59:59") \
group by request \
order by count desc')

这个查询需要一点时间，如果可能的话想加快速度。从下面的给定字段中，我的查询是最有效的吗？

devicereceipttime (timestamp)
year (int)
month (int)
day (int)
hour (int)
minute (int)
seconds (int)

python-3.x - 使用带有 concat(to_date) 的时间戳字段是在 Impala 中查询前一天的最有效方法吗？

0 回答 0

Related

Reference