问题标签 [stormcrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1142 浏览

web-crawler - Storm crawler - 技术堆栈和 Apache Nutch

如果不是 Hbase,我想近乎实时地抓取特定论坛并将数据转储到 HDFS。

我听说 Apache Nutch 可以解决这个问题,但遗憾的是它需要的技术栈已经很老了。我不想将 hadoop 从 2.6 降级到早期版本,也不想将 Elasticsearch 降级到 1.7/1.4,因此我将注意力转移到了storm-crawler。

由于我使用的是 Hadoop 2.6、Elasticsearch 2.0 和 Hbase 1.1.3,谁能告诉我storm-crawler 0.9 是否可以与它们一起使用?

0 投票
1 回答
406 浏览

web-crawler - Prioritizing recursive crawl in Storm Crawler

When crawling the world wide web, I would want to give my crawler an initial seed list of URLs - and would expect my crawler to automatically 'discover' new seed URLs from internet during it's crawling.

I see such option in Apach Nutch (see topN parameter in generate command of nutch). Is there any such option in Storm Crawler as well?

0 投票
1 回答
167 浏览

web-crawler - StormCrawler 中的重定向是否有任何限制?

我可以_redirTo在 ElasticSearch 的状态索引中看到标签。关于重定向的几个问题如下:

  1. 重定向有什么限制吗?所以它不应该在重定向循环中结束?
  2. 特定获取的 URL 有多少重定向?我只能在_redirTo标签中看到一个重定向,即直接重定向。如果 URL 有两个或三个重定向,则无法获取重定向计数?
0 投票
1 回答
1507 浏览

web-crawler - 使用 Storm Crawler 爬行

我们正在尝试实施 Storm Crawler 来抓取数据。我们已经能够从 url 中找到子链接,但我们想从这些子链接中获取内容。我一直找不到很多资源来指导我如何获得它?在这方面任何有用的链接/网站都会有所帮助。谢谢。

0 投票
1 回答
157 浏览

web-crawler - 使用 ElasticSearch 并行处理插入到 StormCrawler 中的新域/URL

我正在使用 StormCrawler 进行实时抓取。我在 ElasticSearch 中插入 Domain 并且 Crawler 爬行良好,我已经为每个 Domain 定义了爬行 URls 的限制(在SimpleFetcherBolt中使用 Redis )。

场景:当我插入一个域时,StormCrawler 开始爬行。现在在 ElasticSeeds 中输入一个新域,StormCrawler 不会立即获取它。

它正忙于获取先前域的页面。如果限制很高(比如 1000 个 URL),则至少需要 20 分钟才能开始在新插入的域上进行爬网。

我想要即时结果,是否可以在新域上设置任何优先级?或 StormCrawler 开始在新域上爬行 每当插入新域时?每个域的不同队列(DB)?

任何建议,将不胜感激。

0 投票
1 回答
511 浏览

java - 使用 Tika 进行递归爬网的 Storm Crawler 配置

我想在我的拓扑中包含 tika 解析器。我已jsoup.treat.non.html.as.error按照false配置中的设置进行设置,并且按照 Storm crawler 文档中的说明设置了 tika 拓扑。

爬取拓扑的设置如下:

使用此拓扑,我收到了 Invalid Topology 异常。该问题似乎是由状态螺栓引起的。因为,当我排除状态螺栓时,我的爬网拓扑工作没有任何问题。我应该如何配置状态螺栓?

0 投票
1 回答
214 浏览

web-crawler - Storm Crawler - 爬取需要身份验证的网站

我想使用 Storm Crawler 在 Intranet 中抓取需要授权(我已经有凭据)的网站。是否可以通过简单地修改爬虫配置来做到这一点,或者我应该更改源代码中的类,如果可以,哪些类?

0 投票
1 回答
124 浏览

web-crawler - 在服务器上删除页面后,告诉 StormCrawler 从 ES-index 中删除页面

我有以下情况:

  • 现有页面被 StormCrawler 抓取
  • StormCrawler 将对应的文档添加到 Elasticsearch 索引中
  • 该页面在服务器上被删除

=> 爬虫通过更新状态索引“检测”页面的删除:文档获得状态“FETCH_ERROR”(达到“max.fetch.errors”后状态为“ERROR”)。

问题:Elasticsearch-Index 仍然保留文档,但是由于页面已被删除,这没有任何意义。

查看配置,我还没有找到一种方法来告诉 StormCrawler 从 ES 索引中删除状态为“错误”的文档(例如已删除)。有没有办法使用 StormCrawler 来实现这一点,或者有没有理由为什么这是不可能的?

非常感谢您的帮助!

0 投票
0 回答
215 浏览

stormcrawler - 连接到 elasticsearch 时出现问题

我一直在关注 Storm Crawler 的视频博客。

我正在尝试创建一个引用 WIKI 和视频https://www.youtube.com/watch?v=xMCuWpPh-4A&feature=youtu.be的网络爬虫,但我得到:

java.lang.IllegalStateException:收到来自不受支持版本的消息:[2.0.0] 最低兼容版本为:[5.0.0]

我正在使用以下内容:Elasticsearch:5.3.0 版本 Storm:1.0.3 版本。

请帮助我了解您推荐和使用的版本。

感谢你的帮助。

谢谢!拉吉

0 投票
1 回答
173 浏览

web-crawler - StormCrawler AJAX/动态内容解析

我想知道当前版本的stormcrawler 支持AJAX/Dynamic 内容解析并将其存储在elasticsearch 中。

我知道正在改进,这里是链接:https ://github.com/DigitalPebble/storm-crawler/issues/144

感谢你的帮助

谢谢拉吉