1

Common Crawl 是一个非盈利的第三方网络搜索引擎。http://commoncrawl.org

我看到了用于搜索给定域的 Common Crawl 的 API。

如何搜索给定搜索词的常见爬网?

4

1 回答 1

3

您目前无法搜索网页的内容。有使用 CC 数据集的 commonsearch,但我不确定它是最新的。如果您正在寻找一组有限的关键字,您可以使用 Mapreduce 或 Spark 来过滤页面,但如果您正在处理开放的或任意的查询集,那么最好的方法是自己将数据集索引到 Elasticsearch 或 SOLR 中。

于 2017-12-12T15:10:08.173 回答