当storm爬虫重新访问之前已经抓取过的网站时,它会更新elasticsearch索引中的相应文档。即,旧内容被新内容覆盖。
是否有任何 Stormcrawler 功能允许我们保留某些字段的旧版本并使用时间戳对其进行注释?
我们研究了 elasticsearch rollover api 和摄取管道。摄取管道看起来很有希望在更新操作上修改弹性搜索文档。有没有办法通过stormcrawler配置将管道参数(即?pipeline=xxx)附加到相关的elasticsearch请求中?
当storm爬虫重新访问之前已经抓取过的网站时,它会更新elasticsearch索引中的相应文档。即,旧内容被新内容覆盖。
是否有任何 Stormcrawler 功能允许我们保留某些字段的旧版本并使用时间戳对其进行注释?
我们研究了 elasticsearch rollover api 和摄取管道。摄取管道看起来很有希望在更新操作上修改弹性搜索文档。有没有办法通过stormcrawler配置将管道参数(即?pipeline=xxx)附加到相关的elasticsearch请求中?