python - elasticsearch聚合哈希的唯一条目并找到所有标签

Question

我在单个索引中有两组散列，具有不同的标签作为附加字段，如下所示：

索引：哈希-*

sha1-c            tag
abcdefg12345      collect
abcdefg12345      collect
bcdefgh12345      collect
cdefghi           collect


sha1-m       tag
abclefg      bad
abcgefg      bad
cdefghi      bad

如何在我的索引中找到两个标签之间的所有重复项？我更喜欢 kibana 中的数据表或可视化，但弹性搜索聚合/查询就足够了。

格式

t  _index     sha1-c
t  _type      sha1-c
t  sha1-c     cdefghi
t  tag        sha1-c

t  _index     sha1-m
t  _type      sha1-m
t  sha1-m     cdefghi
t  tag        sha1-m

预期结束状态：

hash_matches 
cdefghi

score 2 · Accepted Answer

首先，重要的是您的两个索引具有相同的字段名称。此外，为简单起见，tag和sha-1c字段应该有一个子字段（或它们本身）应该是keywords 以便terms聚合不会因某些错误分析的文本而跳闸。

这是我的建议（用 5.3 测试）。在 2.x 中，可能需要稍微更改脚本。在 1.x 中，此解决方案将不起作用，因为那里没有可用的管道聚合。

解决方案基本上是terms在 sha 值上创建一个聚合，然后对于每个 sha 它计算它找到的不同标签。如果这些标签计数高于两个，那么就有 sha 有两个。现在，如果我们知道每个 sha 值是否在每个 index 中只找到一次，那将是一个更可靠的解决方案。是这样吗？如果是这样，下面字段的聚合tag应转换为 agg on_index字段。

DELETE sha1-*
PUT sha1-c
{
  "mappings": {
    "sha1-c": {
      "properties": {
        "sha1-c": {
          "type": "keyword"
        },
        "tag": {
          "type": "keyword"
        }
      }
    }
  }
}
PUT sha1-m
{
  "mappings": {
    "sha1-m": {
      "properties": {
        "sha1-c": {
          "type": "keyword"
        },
        "tag": {
          "type": "keyword"
        }
      }
    }
  }
}

POST /sha1-c/sha1-c/_bulk
{"index":{}}
{"sha1-c":"abcdefg12345","tag":"collect"}
{"index":{}}
{"sha1-c":"abcdefg12345","tag":"collect"}
{"index":{}}
{"sha1-c":"bcdefgh12345","tag":"collect"}
{"index":{}}
{"sha1-c":"cdefghi","tag":"collect"}

POST /sha1-m/sha1-m/_bulk
{"index":{}}
{"sha1-c":"abclefg","tag":"bad"}
{"index":{}}
{"sha1-c":"abcgefg","tag":"bad"}
{"index":{}}
{"sha1-c":"cdefghi","tag":"bad"}


GET /sha1-*/_search
{
  "size": 0, 
  "aggs": {
    "myField": {
      "terms": {
        "field": "sha1-c"
      },
      "aggs": {
        "count_tags": {
          "cardinality": {
            "field": "tag"
          }
        },
        "values_bucket_filter_by_tags_count": {
          "bucket_selector": {
            "buckets_path": {
              "count": "count_tags"
            },
            "script": "params.count >= 2"
          }
        }
      }
    }
  }
}

python - elasticsearch聚合哈希的唯一条目并找到所有标签

1 回答 1

Related

Reference