2

我们正在尝试实施 Storm Crawler 来抓取数据。我们已经能够从 url 中找到子链接,但我们想从这些子链接中获取内容。我一直找不到很多资源来指导我如何获得它?在这方面任何有用的链接/网站都会有所帮助。谢谢。

4

1 回答 1

4

入门演示和演讲以及各种博客文章应该很有用。

如果子链接被提取和解析 - 您可以在日志中检查,那么内容将可用于索引或存储,例如 WARC。有一个虚拟索引器将内容转储到控制台,可以作为起点,或者有资源用于在 Elasticsearch 或 SOLR 中索引文档。WARC 模块也可用于存储页面内容。

于 2016-12-28T13:54:02.363 回答