我需要提取围绕新闻文章的不同字段,并且除了新闻文章的发布日期之外,我已经能够自动化其中的大部分字段。目前,我手动访问相应的网站,检查发布日期周围的 HTML 标记,并编写一个 jQuery 来提取日期并在 pyquery 中实现它。但是,我也想删除这个手动步骤,并为纽约时报等新闻网站编写一个通用的网络爬虫。我能想到的最接近的是编写很多可以匹配文章 DOM 中的日期时间格式的正则表达式但无法弄清楚如何区分实际发布日期和实际文章本身中可能存在的任何其他日期。
编辑:我相信我的问题的语言不是很清楚,所以我的问题是是否有办法自动从任何新闻文章中抓取发布日期,即可以从博客文章或新闻文章中提取发布日期的通用爬虫。