我想使用普通爬网检索网页,但我迷路了。
我想获取 www.example.com 的 warc 文件。我看到这个链接(http://index.commoncrawl.org/CC-MAIN-2017-34-index?url=https%3A%2F%2Fwww.example.com&output=json)产生以下json。
{“urlkey”:“com,example)/”,“timestamp”:“20170820000102”,“mime”:“text/html”,“digest”:“B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A”,“文件名”:“crawl-data/CC- MAIN-2017-34/segments/1502886105955.66/robotstxt/CC-MAIN-20170819235943-20170820015943-00613.warc.gz”,“mime-detected”:“text/html”,“status”:“200”,“offset” :“1109728”,“长度”:“1166”,“网址”:“ http://www.example.com ”}
有人可以指出我如何使用这些 json 元素来检索 HTML 的正确方向。
感谢您帮助菜鸟!