2

我正在开发一个系统,该系统必须跟踪少数门户网站的内容并每晚检查更改(例如下载和索引白天添加的新站点)。此门户的内容将被编入索引以供搜索。问题在于重新抓取此门户网站 - 首次抓取门户网站需要很长时间(门户网站示例:www.onet.pl、www.bankier.pl、www.gazeta.pl),我想更快地重新抓取它(尽可能快)例如通过检查修改日期,但我使用了wget下载 www.bankier.pl 但作为回应,它抱怨没有最后修改标题。有没有办法重新抓取这么多网站?我也尝试过使用 Nutch,但用于重新抓取的脚本似乎无法正常工作 - 或者它也取决于此标头(最后修改)。也许有一种工具,爬虫(如 Nutch 之类的)可以通过添加新站点来更新已下载的站点?

最好的问候, Wojtek

4

2 回答 2

1

我建议使用curl仅获取头部并检查 Last-Modified 头部是否已更改。

例子:

 curl --head www.bankier.pl
于 2011-01-06T19:03:27.570 回答
0

对于 Nutch,我写了一篇关于如何使用 Nutch 重新抓取的博文。基本上,您应该为db.fetch.interval.default设置设置一个较低的值。在下一次获取 url 时,Nutch 将使用最后一次获取时间作为If-Modified-Since HTTP 标头的值。

于 2011-01-06T19:00:10.567 回答