我正在开发一个系统,该系统必须跟踪少数门户网站的内容并每晚检查更改(例如下载和索引白天添加的新站点)。此门户的内容将被编入索引以供搜索。问题在于重新抓取此门户网站 - 首次抓取门户网站需要很长时间(门户网站示例:www.onet.pl、www.bankier.pl、www.gazeta.pl),我想更快地重新抓取它(尽可能快)例如通过检查修改日期,但我使用了wget下载 www.bankier.pl 但作为回应,它抱怨没有最后修改标题。有没有办法重新抓取这么多网站?我也尝试过使用 Nutch,但用于重新抓取的脚本似乎无法正常工作 - 或者它也取决于此标头(最后修改)。也许有一种工具,爬虫(如 Nutch 之类的)可以通过添加新站点来更新已下载的站点?
最好的问候, Wojtek