在弹性搜索中滚动时,在每次滚动时提供最新的很重要scroll_id
:
初始搜索请求和每个后续滚动请求都会返回一个新的 scroll_id — 只应使用最近的 scroll_id。
以下示例(取自此处)使我感到困惑。一、滚动初始化:
rs = es.search(index=['tweets-2014-04-12','tweets-2014-04-13'],
scroll='10s',
search_type='scan',
size=100,
preference='_primary_first',
body={
"fields" : ["created_at", "entities.urls.expanded_url", "user.id_str"],
"query" : {
"wildcard" : { "entities.urls.expanded_url" : "*.ru" }
}
}
)
sid = rs['_scroll_id']
然后循环:
tweets = [] while (1):
try:
rs = es.scroll(scroll_id=sid, scroll='10s')
tweets += rs['hits']['hits']
except:
break
它有效,但我看不到在哪里sid
更新......我相信它发生在内部,在 python 客户端中;但我不明白它是如何工作的......