我目前正在使用 praw 开发用于某些数据挖掘目的的 reddit 爬虫。我想从 subreddits 抓取评论和提交,然后将它们保存在数据库或文件中,最好以 json 格式保存以备后用。我在尝试将评论和提交对象序列化为 python 中的 JSON 对象时遇到问题。是否有现有的方法或方法可以做到这一点?注意:我对 python 也很陌生。
在此先感谢您的帮助!
更新 - - - - -
看起来这不再可能了,向安托万致敬
我不确定是否有办法序列化您需要的内容,但您可以使用以下方式保存提交 ID:
some_id = sub.id
然后稍后检索它们
r.get_submission(submission_id=some_id)
编辑 - - - - - - - - - - - - - - - - - - - - -
所以做了一些研究,发现了这个:https ://github.com/praw-dev/praw/issues/271
所以基本上你可以打开存储json:
r.config.store_json_result = True
然后,您可以使用评论或提交的 json_dict 成员访问 json 数据。