问题标签 [stormcrawler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

209 问题

0 投票

2 回答

1142 浏览

web-crawler - Storm crawler - 技术堆栈和 Apache Nutch

如果不是 Hbase，我想近乎实时地抓取特定论坛并将数据转储到 HDFS。

我听说 Apache Nutch 可以解决这个问题，但遗憾的是它需要的技术栈已经很老了。我不想将 hadoop 从 2.6 降级到早期版本，也不想将 Elasticsearch 降级到 1.7/1.4，因此我将注意力转移到了storm-crawler。

由于我使用的是 Hadoop 2.6、Elasticsearch 2.0 和 Hbase 1.1.3，谁能告诉我storm-crawler 0.9 是否可以与它们一起使用？

web-crawler apache-storm nutch stormcrawler

2016-04-06T04:20:07.670

0 投票

1 回答

406 浏览

web-crawler - Prioritizing recursive crawl in Storm Crawler

When crawling the world wide web, I would want to give my crawler an initial seed list of URLs - and would expect my crawler to automatically 'discover' new seed URLs from internet during it's crawling.

I see such option in Apach Nutch (see topN parameter in generate command of nutch). Is there any such option in Storm Crawler as well?

web-crawler nutch stormcrawler

2016-10-13T10:43:26.203

0 投票

1 回答

167 浏览

web-crawler - StormCrawler 中的重定向是否有任何限制？

我可以_redirTo在 ElasticSearch 的状态索引中看到标签。关于重定向的几个问题如下：

重定向有什么限制吗？所以它不应该在重定向循环中结束？
特定获取的 URL 有多少重定向？我只能在_redirTo标签中看到一个重定向，即直接重定向。如果 URL 有两个或三个重定向，则无法获取重定向计数？

web-crawler apache-storm stormcrawler

2016-12-20T07:44:19.160

0 投票

1 回答

1507 浏览

web-crawler - 使用 Storm Crawler 爬行

我们正在尝试实施 Storm Crawler 来抓取数据。我们已经能够从 url 中找到子链接，但我们想从这些子链接中获取内容。我一直找不到很多资源来指导我如何获得它？在这方面任何有用的链接/网站都会有所帮助。谢谢。

web-crawler apache-storm stormcrawler

2016-12-28T09:29:16.257

0 投票

1 回答

157 浏览

web-crawler - 使用 ElasticSearch 并行处理插入到 StormCrawler 中的新域/URL

我正在使用 StormCrawler 进行实时抓取。我在 ElasticSearch 中插入 Domain 并且 Crawler 爬行良好，我已经为每个 Domain 定义了爬行 URls 的限制（在SimpleFetcherBolt中使用 Redis ）。

场景：当我插入一个域时，StormCrawler 开始爬行。现在在 ElasticSeeds 中输入一个新域，StormCrawler 不会立即获取它。

它正忙于获取先前域的页面。如果限制很高（比如 1000 个 URL），则至少需要 20 分钟才能开始在新插入的域上进行爬网。

我想要即时结果，是否可以在新域上设置任何优先级？或 StormCrawler 开始在新域上爬行每当插入新域时？每个域的不同队列（DB）？

任何建议，将不胜感激。

web-crawler stormcrawler

2017-01-04T11:39:08.753

0 投票

1 回答

511 浏览

java - 使用 Tika 进行递归爬网的 Storm Crawler 配置

我想在我的拓扑中包含 tika 解析器。我已jsoup.treat.non.html.as.error按照false配置中的设置进行设置，并且按照 Storm crawler 文档中的说明设置了 tika 拓扑。

爬取拓扑的设置如下：

使用此拓扑，我收到了 Invalid Topology 异常。该问题似乎是由状态螺栓引起的。因为，当我排除状态螺栓时，我的爬网拓扑工作没有任何问题。我应该如何配置状态螺栓？

java web-crawler apache-tika stormcrawler

2017-02-21T06:00:37.907

0 投票

1 回答

214 浏览

web-crawler - Storm Crawler - 爬取需要身份验证的网站

我想使用 Storm Crawler 在 Intranet 中抓取需要授权（我已经有凭据）的网站。是否可以通过简单地修改爬虫配置来做到这一点，或者我应该更改源代码中的类，如果可以，哪些类？

web-crawler stormcrawler

2017-02-23T06:07:46.923

0 投票

1 回答

124 浏览

web-crawler - 在服务器上删除页面后，告诉 StormCrawler 从 ES-index 中删除页面

我有以下情况：

现有页面被 StormCrawler 抓取
StormCrawler 将对应的文档添加到 Elasticsearch 索引中
该页面在服务器上被删除

=> 爬虫通过更新状态索引“检测”页面的删除：文档获得状态“FETCH_ERROR”（达到“max.fetch.errors”后状态为“ERROR”）。

问题：Elasticsearch-Index 仍然保留文档，但是由于页面已被删除，这没有任何意义。

查看配置，我还没有找到一种方法来告诉 StormCrawler 从 ES 索引中删除状态为“错误”的文档（例如已删除）。有没有办法使用 StormCrawler 来实现这一点，或者有没有理由为什么这是不可能的？

非常感谢您的帮助！

web-crawler stormcrawler

2017-03-15T12:49:05.120

0 投票

0 回答

215 浏览

stormcrawler - 连接到 elasticsearch 时出现问题

我一直在关注 Storm Crawler 的视频博客。

我正在尝试创建一个引用 WIKI 和视频https://www.youtube.com/watch?v=xMCuWpPh-4A&feature=youtu.be的网络爬虫，但我得到：

java.lang.IllegalStateException：收到来自不受支持版本的消息：[2.0.0] 最低兼容版本为：[5.0.0]

我正在使用以下内容：Elasticsearch：5.3.0 版本 Storm：1.0.3 版本。

请帮助我了解您推荐和使用的版本。

感谢你的帮助。

谢谢！拉吉

stormcrawler

2017-04-09T14:10:52.063

0 投票

1 回答

173 浏览

web-crawler - StormCrawler AJAX/动态内容解析

我想知道当前版本的stormcrawler 支持AJAX/Dynamic 内容解析并将其存储在elasticsearch 中。

我知道正在改进，这里是链接：https ://github.com/DigitalPebble/storm-crawler/issues/144

感谢你的帮助

谢谢拉吉

web-crawler stormcrawler

2017-04-12T08:30:01.227

1 2 3 4 5 6 7 8 9 10