0

我可以_redirTo在 ElasticSearch 的状态索引中看到标签。关于重定向的几个问题如下:

  1. 重定向有什么限制吗?所以它不应该在重定向循环中结束?
  2. 特定获取的 URL 有多少重定向?我只能在_redirTo标签中看到一个重定向,即直接重定向。如果 URL 有两个或三个重定向,则无法获取重定向计数?
4

1 回答 1

1

您可以从种子中设置深度限制,请参阅MaxDepth URL 过滤器,但不能直接针对连续重定向的数量。

正如您所注意到的,我们只跟踪给定文档被重定向到的 URL。

如果你想控制redirs的数量而不考虑与种子的距离,一种方法是扩展或修改MetadataTransfer或在协议实现中处理redirs,缺点是这不会检查目标URL是否已经获取。

更新有一个名为“redirections.allowed”的配置元素,默认值为true。我刚刚为 SimpleFetcherBolt 推送了一个修复程序,因为它没有得到正确处理。

于 2016-12-20T08:21:29.847 回答