0

当storm爬虫重新访问之前已经抓取过的网站时,它会更新elasticsearch索引中的相应文档。即,旧内容被新内容覆盖。

是否有任何 Stormcrawler 功能允许我们保留某些字段的旧版本并使用时间戳对其进行注释?

我们研究了 elasticsearch rollover api 和摄取管道。摄取管道看起来很有希望在更新操作上修改弹性搜索文档。有没有办法通过stormcrawler配置将管道参数(即?pipeline=xxx)附加到相关的elasticsearch请求中?

4

1 回答 1

0

一种选择是使用 URL + 时间戳作为键并分别存储文档的每个版本。不过,您必须在搜索时进行重复数据删除。这需要对代码进行微小的更改。

我们目前无法通过配置附加参数,但它应该是可行的。我从未在 ES 中使用过管道,难道不能将它们配置为在特定索引上默认使用吗?

于 2018-06-12T12:41:55.593 回答