1

我正在使用 python 库 Impyla 在 python 脚本中使用 Impala 从 HDFS 查询数据。具体数据是代理数据,并且有很多。我有一个每天运行的脚本来提取前一天并运行统计信息。目前我正在使用devicereceipttime该查询的字段,该字段存储为时间戳。

from impala.dbapi import connect
from impala.util import as_pandas
import pandas as pd

#Pull desired features from the proxy_realtime_p table
cursor.execute('select request, count(*) as count \
from default.proxy_realtime_p \
where devicereceipttime BETWEEN concat(to_date(now() - interval 1 days), " 00:00:00") and concat(to_date(now() - interval 1 days), " 23:59:59") \
group by request \
order by count desc')

这个查询需要一点时间,如果可能的话想加快速度。从下面的给定字段中,我的查询是最有效的吗?

devicereceipttime (timestamp)
year (int)
month (int)
day (int)
hour (int)
minute (int)
seconds (int)
4

0 回答 0