web-crawler - 使用 Storm Crawler 爬行

Question

我们正在尝试实施 Storm Crawler 来抓取数据。我们已经能够从 url 中找到子链接，但我们想从这些子链接中获取内容。我一直找不到很多资源来指导我如何获得它？在这方面任何有用的链接/网站都会有所帮助。谢谢。

score 4 · Accepted Answer

如果子链接被提取和解析 - 您可以在日志中检查，那么内容将可用于索引或存储，例如 WARC。有一个虚拟索引器将内容转储到控制台，可以作为起点，或者有资源用于在 Elasticsearch 或 SOLR 中索引文档。WARC 模块也可用于存储页面内容。

1 回答 1