我正在使用 CommonCrawl 来恢复我应该实现但没有实现的页面。
据我了解,Common Crawl Index 提供对 Common Crawl 存储的所有 URL 的访问。因此,如果实现了 URL,它应该会给我一个答案。
一个简单的脚本会从可用的爬网中下载所有索引:
./cdx-index-client.py -p 4 -c CC-MAIN-2016-18 *.thesun.co.uk --fl url -d CC-MAIN-2016-18
./cdx-index-client.py -p 4 -c CC-MAIN-2016-07 *.thesun.co.uk --fl url -d CC-MAIN-2016-07
... and so on
之后我有 112mb 的数据,只需 grep:
grep "50569" * -r
grep "Locals-tell-of-terror-shock" * -r
页面不存在。我错过了什么吗?该页面于 2006 年发布并于 2016 年 6 月删除。所以我认为 CommonCrawl 应该已经实现了它们?
更新:感谢塞巴斯蒂安,留下两个链接......两个网址是:
- http://www.thesun.co.uk/sol/homepage/news/50569/Locals-tell-of-terror-shock.html
- http://www.thesun.co.uk/sol/homepage/news/54032/Sir-Ians-raid-apology.html
他们甚至提出了一个“URL 搜索工具”,它的回答是 502 - Bad Gateway...