我无法让 Nutch 为我爬行一小块。我通过带有参数 -depth 7 和 -topN 10000的bin/nutch crawl命令启动它。它永远不会结束。仅在我的 HDD 为空时结束。我需要做什么:
- 开始爬取我的种子,有可能在外链上走得更远。
- 抓取 20000 页,然后将它们编入索引。
- 抓取另外 20000 页,将它们编入索引并与第一个索引合并。
- 循环步骤 3 n 次。
也尝试了在 wiki 中找到的脚本,但我发现的所有脚本都没有更进一步。如果我再次运行它们,它们会从头开始做所有事情。在脚本结束时,我有相同的索引,当我开始爬行时。但是,我需要继续爬行。