web-crawler - 将抓取限制在种子 url 的子页面

Question

我有这一套，它根据种子爬取页面

{“类”：“com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”，“名称”：“HostURLFilter”，“参数”：{“ignoreOutsideHost”：假，“ignoreOutsideDomain”：真}}

但是，我怎样才能仅限于种子的子页面。例如。如果我有一个种子为“ https://www.test.com/ ”，通过上述设置，爬虫还会抓取并添加诸如“ https://stg.test.com/ ”之类的网址及其子页面等。

如何将抓取限制为“ https://www.test.com/ ”以及该种子的子页面，例如“ https://www.test.com/test1 ”、“ https://www.test .com/test2 " 等

TIA。

score 0 · Accepted Answer

0

只需在 HostUrlFilter 的配置中将 ignoreOutsideHost 设置为true。

于 2018-07-18T20:36:09.787 回答

1 回答 1