1

如何设置每个主机索引的最大页数?我不想索引所有百万页面的网站,我只想索引前 100000 个找到的页面。

4

1 回答 1

0

当 depth=10 和 topN=1000 时,您的索引中不会有超过 10000 个文档(如果您不重新抓取)。“深度”参数表示 Nutch 将运行多少次迭代。'topN' 参数控制在一次迭代期间最多获取多少个 url。因此,将 'depth' 乘以 'topN' 可以估算出将索引多少个 url。这是一个近似值,因为您的网址可能会超时或返回 404。

如果您不想重新抓取,请确保将“db.fetch.interval.default”设置为足够高的值以完成抓取作业。如果在该间隔到期时未完成抓取作业,那么您将开始重新抓取一些 url,因此索引的 url 数量将小于 depth*topN。

于 2010-10-06T16:15:57.130 回答