Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
Common Crawl 是一个非盈利的第三方网络搜索引擎。http://commoncrawl.org
我看到了用于搜索给定域的 Common Crawl 的 API。
如何搜索给定搜索词的常见爬网?
您目前无法搜索网页的内容。有使用 CC 数据集的 commonsearch,但我不确定它是最新的。如果您正在寻找一组有限的关键字,您可以使用 Mapreduce 或 Spark 来过滤页面,但如果您正在处理开放的或任意的查询集,那么最好的方法是自己将数据集索引到 Elasticsearch 或 SOLR 中。