我有这一套,它根据种子爬取页面
{“类”:“com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”,“名称”:“HostURLFilter”,“参数”:{“ignoreOutsideHost”:假,“ignoreOutsideDomain”:真}}
但是,我怎样才能仅限于种子的子页面。例如。如果我有一个种子为“ https://www.test.com/ ”,通过上述设置,爬虫还会抓取并添加诸如“ https://stg.test.com/ ”之类的网址及其子页面等。
如何将抓取限制为“ https://www.test.com/ ”以及该种子的子页面,例如“ https://www.test.com/test1 ”、“ https://www.test .com/test2 " 等
TIA。