1

我目前正在使用 praw 开发用于某些数据挖掘目的的 reddit 爬虫。我想从 subreddits 抓取评论和提交,然后将它们保存在数据库或文件中,最好以 json 格式保存以备后用。我在尝试将评论和提交对象序列化为 python 中的 JSON 对象时遇到问题。是否有现有的方法或方法可以做到这一点?注意:我对 python 也很陌生。

在此先感谢您的帮助!

4

1 回答 1

2

更新 - - - - -

看起来这不再可能了,向安托万致敬

https://github.com/praw-dev/praw/issues/701

我不确定是否有办法序列化您需要的内容,但您可以使用以下方式保存提交 ID:

some_id = sub.id

然后稍后检索它们

r.get_submission(submission_id=some_id)

编辑 - - - - - - - - - - - - - - - - - - - - -

所以做了一些研究,发现了这个:https ://github.com/praw-dev/praw/issues/271

所以基本上你可以打开存储json:

r.config.store_json_result = True

然后,您可以使用评论或提交的 json_dict 成员访问 json 数据。

于 2014-07-15T02:51:25.013 回答