wget - 快速重新抓取网站

Question

我正在开发一个系统，该系统必须跟踪少数门户网站的内容并每晚检查更改（例如下载和索引白天添加的新站点）。此门户的内容将被编入索引以供搜索。问题在于重新抓取此门户网站 - 首次抓取门户网站需要很长时间（门户网站示例：www.onet.pl、www.bankier.pl、www.gazeta.pl），我想更快地重新抓取它（尽可能快）例如通过检查修改日期，但我使用了wget下载 www.bankier.pl 但作为回应，它抱怨没有最后修改标题。有没有办法重新抓取这么多网站？我也尝试过使用 Nutch，但用于重新抓取的脚本似乎无法正常工作 - 或者它也取决于此标头（最后修改）。也许有一种工具，爬虫（如 Nutch 之类的）可以通过添加新站点来更新已下载的站点？

最好的问候， Wojtek

score 1 · Accepted Answer

我建议使用curl仅获取头部并检查 Last-Modified 头部是否已更改。

例子：

 curl --head www.bankier.pl

score 0 · Accepted Answer

对于 Nutch，我写了一篇关于如何使用 Nutch 重新抓取的博文。基本上，您应该为db.fetch.interval.default设置设置一个较低的值。在下一次获取 url 时，Nutch 将使用最后一次获取时间作为If-Modified-Since HTTP 标头的值。

wget - 快速重新抓取网站

2 回答 2

Related

Reference