我是实时分布式搜索引擎elasticsearch的新手,但我想问一个技术问题。
我编写了一个 Python 模块爬虫,它解析网页并使用本机信息创建 JSON 对象。我的模块爬虫的下一步是使用 elasticsearch 存储本机信息。
真正的问题如下。哪种技术更适合我的场合?elasticsearch RESTful API 或用于弹性搜索的 python API (elasticsearch-py) ?
我是实时分布式搜索引擎elasticsearch的新手,但我想问一个技术问题。
我编写了一个 Python 模块爬虫,它解析网页并使用本机信息创建 JSON 对象。我的模块爬虫的下一步是使用 elasticsearch 存储本机信息。
真正的问题如下。哪种技术更适合我的场合?elasticsearch RESTful API 或用于弹性搜索的 python API (elasticsearch-py) ?
如果您已经有 Python 代码,那么最自然的方式就是使用elasticsearch-py
客户端。
通过 安装elasticsearch-py
库后pip install elatsicsearch
,您可以找到一个简单的代码示例来帮助您:
# import the elasticsearch library
from elasticsearch import Elasticsearch
# get your JSON data
json_page = {...}
# create a new client to connect to ES running on localhost:9200
es = Elasticsearch()
# index your JSON data
es.index(index="webpages", doc_type="webpage", id=1, body=json_page)
您也可以尝试elasticsearch_dsl
它是elasticsearch
.