python - Praw：如何根据创建日期过滤搜索结果？

Question

我想在后台运行一个脚本，它会每隔一小时左右获取 subreddit 数据。现在因为我不想在我的数据库中有重复的条目，我想根据 created_utc 过滤我的搜索结果

这是我目前拥有的：

r = praw.Reddit(user_agent='soc')
submissions = r.get_subreddit('soccer').get_hot()

这就是我想要的：

r = praw.Reddit(user_agent='soc')
submissions = r.get_subreddit('soccer').get_hot(created_utc > '2016-02-18 14:33:14.000')

有什么方法可以实现这一目标？

score 4 · Accepted Answer

SubReddit该类和Reddit API都没有您想要的基于日期的过滤方法，所以这里有一个选项供您选择：

在将结果放入数据库之前，在 Python 中过滤掉它们。get_hot并get_new返回生成器对象，因此您可以使用这样的列表推导：

from datetime import datetime, timedelta
import praw

# assuming you run this script every hour
an_hour_ago = datetime.utcnow() - timedelta(hours=1)
r = praw.Reddit(user_agent='soc')
submissions = r.get_subreddit('soccer').get_new()
submissions_list = [
    # iterate through the submissions generator object
    x for x in submissions
    # add item if item.created_utc is newer than an hour ago
    if datetime.utcfromtimestamp(x.created_utc) >= an_hour_ago
]

默认情况下，Reddit 仅返回 25 个列表，因此如果您需要更多列表，则必须对其进行分页。

limit = 100  # Reddit maximum limit
total_list = []
submissions = r.get_subreddit('soccer').get_new(limit=limit)
submissions_list = [
    x for x in submissions
    if datetime.utcfromtimestamp(x.created_utc) >= an_hour_ago
]
total_list += submissions_list
if len(submissions_list) == limit:
    submissions = r.get_subreddit('soccer').get_new(
        # get limit of items past the last item in the total list
        limit=100, params={"after": total_list[-1].fullname}
    )
submissions_list_2 = [
    # iterate through the submissions generator object
    x for x in submissions
    # add item if item.created_utc is newer than an hour ago
    if datetime.utcfromtimestamp(x.created_utc) >= an_hour_ago
]
total_list += submissions_list_2
print total_list

如果提交的数量大于 200，则必须将其放入递归函数中，如下所示：subreddit_latest.py

score 1 · Accepted Answer

您应该比较 datetime 对象而不是字符串，因此您应该像这样将它们转换为 datetime：

from datetime import datetime
date = datetime.strptime('2016-02-18 14:33:14.000', '%Y-%m-%d %H:%M:%S.%f')

你也应该对 created_utc 做同样的事情，然后比较两者。我不知道您可以在 get_hot 函数中进行比较，因为我从未使用过它。

python - Praw：如何根据创建日期过滤搜索结果？

2 回答 2

Related

Reference