0

我有这一套,它根据种子爬取页面


{“类”:“com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”,“名称”:“HostURLFilter”,“参数”:{“ignoreOutsideHost”:假,“ignoreOutsideDomain”:真}}


但是,我怎样才能仅限于种子的子页面。例如。如果我有一个种子为“ https://www.test.com/ ”,通过上述设置,爬虫还会抓取并添加诸如“ https://stg.test.com/ ”之类的网址及其子页面等。

如何将抓取限制为“ https://www.test.com/ ”以及该种子的子页面,例如“ https://www.test.com/test1 ”、“ https://www.test .com/test2 " 等

TIA。

4

1 回答 1

0

只需在 HostUrlFilter 的配置中将 ignoreOutsideHost 设置true。

于 2018-07-18T20:36:09.787 回答