问题标签 [pyelasticsearch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - 对弹性搜索进行流式传输和批量更新
作为数据分析的一部分,我收集需要存储在 Elasticsearch 中的记录。截至目前,我将记录收集在一个中间列表中,然后我通过批量更新将其写入。
虽然这可行,但当记录数量大到无法放入内存时,它有其局限性。因此,我想知道是否可以使用“流”机制,这将允许
- 持续打开到 elasticsearch 的连接
- 以类似批量的方式不断更新
我知道我可以简单地打开到 Elasticsearch 的连接并在数据可用时进行经典更新,但这大约慢了 10 倍,所以我想保留批量机制:
python - 如何断开与 elasticsearch-py 客户端/连接池的连接
断开elasticsearch-py(python)客户端rsp的正确方法是什么?关闭现有的连接池?我在文档中找不到任何信息。
elasticsearch-plugin - 如何使用 PyES 进行过滤聚合
如何使用 PyES 生成上述查询?
python - elasticsearch-py 无法使用 script_score 查询
我目前正在尝试通过 Python 查询 ES,使用 elasticsearch-py 但没有成功......我正在测试“elasticsearch-head”插件上的请求,它工作正常(结果得分)
但是,当我在 Python 中执行此操作时,似乎出现了问题,虽然我得到了相同的结果,但它们的得分不正确......
这是代码:
这是我的自定义查询,很简单,只是为了测试评分机制。
现在我测试一下:
所有这些给出的是一组得分不正确的结果......我什至启用了“_explanation”来了解是否正在使用脚本......这意味着: - “_score”始终为0 - “_explanation”显示就像是:
python - 在 elasticsearch-py 中,如果我在索引期间使用自定义标记化,搜索命令应该有多大不同?
我正在使用 elasticsearch-py 来索引推文(最初是 JSON 格式)。为了保留主题标签、用户目标和表情符号等特殊字符,我在创建索引时指定了特殊映射。这是它的样子:
我正在使用以下命令进行搜索:
两者都返回相同数量的命中,尽管我很确定我使用的数据不应该是这种情况。
我的搜索命令有问题吗?
python - python中的弹性搜索索引
我想将我的数据从字典推送到 Elasticsearch。我怎样才能为它创建一个索引?
我也尝试在 Linux 服务器 curl -XPUT ' http://localhost:9200/osint/ ' -d ' index: number_of_shards: 5 number_of_replicas: 2 上使用 Curl 命令,但这也没有帮助
我写了这个,但无法通过带有索引的 KibanaHud 获取数据osint
:
你能帮忙吗
elasticsearch - 从 Elasticsearch 索引中获取唯一术语的任何有效方法
我的目标是将所有唯一术语及其 md5 哈希值存储在数据库中。我有一个 100 万个文档索引,其中包含约 400000 个唯一术语。我从aggregations
在 elasticsearch 中使用得到了这个数字。
我可以使用以下方法获得独特的条款:
这给了我 10 个搜索结果以及 100 个唯一术语的术语聚合。但是获得约 400000 个术语的 JSON 需要内存。就像解析我们可以使用的所有搜索结果一样scan-scroll
。有什么方法可以解析所有唯一术语而不将所有内容加载到内存中?
elasticsearch - ElasticSearch:minimum_should_match 和术语列表的长度
使用 ElasticSearch 我正在尝试使用minimum_should_match
a 上的选项Terms Query
来查找具有类似于我正在查询的 s 列表的long
s列表的文档。X%
long
例如:
将匹配两个文档与以下mynum
列表:
和:
这是有效的并且是正确的,因为第一个文档10
末尾有 a 而查询包含 a13
并且第二个文档包含一个11
where 查询又包含 a 13
。
这意味着我的查询列表中的 10 个数字中有 1 个在返回的文档中是不同的,并且等于查询中允许的90%
相似度 ( minimum_should_match
) 值。
现在我遇到的问题是,我希望行为有所不同,因为第二个文档更长并且有 11 个数字而不是 10,因此理想情况下差异级别应该更高,因为它实际上有两个值11
和12
不在查询列表中。例如:
而不是计算以下的交集:
和:
这是一个10%
区别
应该说,因为list2
比 长list1
,所以交点应该是:
和:
这是一个12%
区别
- 这可能吗 ?
- 如果不是,除了使用密集向量而不是稀疏向量之外,我如何加权列表的长度?例如:
使用
而不是:
python - 布尔值的python弹性搜索查询
我有以下查询:
现在默认情况下没有should
和must
查询的条款(例如条款(boost = 2.0,sale_rent = ['Sale']))是什么?
因为这些是应该查询
我只得到条款(boost=2.0,listings.parents_id=[80])的结果,但没有得到其他结果
python - python elasticsearch客户端在创建索引期间设置映射
我可以设置在 curl 命令中创建的索引的映射,如下所示:
但是我需要在 python 中使用 elasticsearch 客户端创建该索引并设置映射.. 有什么办法?我在下面尝试了一些东西但没有用: