search-engine - CommonCrawl：如何找到特定的网页？

Question

我正在使用 CommonCrawl 来恢复我应该实现但没有实现的页面。

据我了解，Common Crawl Index 提供对 Common Crawl 存储的所有 URL 的访问。因此，如果实现了 URL，它应该会给我一个答案。

一个简单的脚本会从可用的爬网中下载所有索引：

./cdx-index-client.py -p 4 -c CC-MAIN-2016-18 *.thesun.co.uk --fl url -d CC-MAIN-2016-18
./cdx-index-client.py -p 4 -c CC-MAIN-2016-07 *.thesun.co.uk --fl url -d CC-MAIN-2016-07
... and so on

之后我有 112mb 的数据，只需 grep：

grep "50569" * -r
grep "Locals-tell-of-terror-shock" * -r

页面不存在。我错过了什么吗？该页面于 2006 年发布并于 2016 年 6 月删除。所以我认为 CommonCrawl 应该已经实现了它们？

更新：感谢塞巴斯蒂安，留下两个链接......两个网址是：

他们甚至提出了一个“URL 搜索工具”，它的回答是 502 - Bad Gateway...

score 4 · Accepted Answer

您可以使用 AWS Athena 查询常见的爬网索引（如 SQL）来查找 URL，然后使用偏移量、长度和文件名来读取代码中的内容。在此处查看详细信息 - http://commoncrawl.org/2018/03/index-to-warc-files-and-urls-in-columnar-format/

score 1 · Accepted Answer

最新版本的 CC 索引搜索提供了从特定 tld 搜索和获取所有 url 的结果的能力。在您的情况下，您可以使用http://index.commoncrawl.org，然后选择您选择的索引。搜索http://www.thesun.co.uk/ *。希望您从 tld 获得所有 url，然后您可以从 json 响应中过滤您选择的 url。

score 0 · Accepted Answer

AFAIK 页面仅被抓取一次，因此您要查找的页面可能在任何档案中。

我写了一个小软件，可以用来一次搜索所有档案（这里还有一个演示如何做到这一点）。因此，在您的情况下，我搜索了所有档案（2008 年到 2019 年）并在通用爬网编辑器上输入了您的 URL，并为您的第一个 URL 找到了这些结果（找不到第二个，所以我猜它不在数据库中？）：

                           FileName                              Offset    Length  
 ------------------------------------------------------------- ---------- -------- 
  parse-output/segment/1346876860877/1346943319237_751.arc.gz    7374762    12162  
  crawl-002/2009/11/21/8/1258808591287_8.arc.gz                 87621562    20028  
  crawl-002/2010/01/07/5/1262876334932_5.arc.gz                 80863242    20075

不知道为什么会有三个结果。我猜他们确实会重新扫描一些 URL。

如果您在我链接的应用程序上打开这些 URL 中的任何一个，您应该能够在浏览器中看到这些页面（这是一个自定义方案，其中包括文件名、偏移量和长度，以便从通用爬网数据库加载 HTML）：

crawl://page.common/parse-output/segment/1346876860877/1346943319237_751.arc.gz?o=7374762&l=12162&u=http%3A%2F%2Fwww.thesun.co.uk%2Fsol%2Fhomepage%2Fnews%2F50569%2FLocals-tell-of-terror-shock.html
crawl://page.common/crawl-002/2009/11/21/8/1258808591287_8.arc.gz?o=87621562&l=20028&u=http%3A%2F%2Fwww.thesun.co.uk%2Fsol%2Fhomepage%2Fnews%2F50569%2FLocals-tell-of-terror-shock.html
crawl://page.common/crawl-002/2010/01/07/5/1262876334932_5.arc.gz?o=80863242&l=20075&u=http%3A%2F%2Fwww.thesun.co.uk%2Fsol%2Fhomepage%2Fnews%2F50569%2FLocals-tell-of-terror-shock.html

search-engine - CommonCrawl：如何找到特定的网页？

3 回答 3

Related

Reference