Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 python 包邮箱,我正在尝试提取消息并清理数据。我遇到的问题是,对于大型数据库,我可以使用示例文件调用构造函数,但是当我尝试打印任何消息时,我的程序会挂起。我认为这是因为我要读取的文件超过 7GB。我该如何处理这个问题?
考虑手动拆分邮箱。通过逐行读取该格式相当容易处理(只要您只需要只读访问权限);您可以使用现有的类来实际解析单个消息。
查找 mbox 格式的定义 - 以“ From”开头的行开始新邮件。您可以在这些标记处拆分大文件,然后使用该mailbox包一次仅读取一个文件。
From
mailbox