Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我们正在尝试实施 Storm Crawler 来抓取数据。我们已经能够从 url 中找到子链接,但我们想从这些子链接中获取内容。我一直找不到很多资源来指导我如何获得它?在这方面任何有用的链接/网站都会有所帮助。谢谢。
入门、演示和演讲以及各种博客文章应该很有用。
如果子链接被提取和解析 - 您可以在日志中检查,那么内容将可用于索引或存储,例如 WARC。有一个虚拟索引器将内容转储到控制台,可以作为起点,或者有资源用于在 Elasticsearch 或 SOLR 中索引文档。WARC 模块也可用于存储页面内容。