我想从 Amazon S3 下载 WAT 存档段的子集。
背景:
在http://index.commoncrawl.org上搜索 Common Crawl 索引会产生包含 AWS S3 上 WARC 文件位置信息的结果。例如,搜索url=www.celebuzz.com/2017-01-04/*&output=json会产生 JSON 格式的结果,其中之一是
{
"urlkey":"com,celebuzz)/2017-01-04/watch-james-corden-george-michael-tribute",
...
"filename":"crawl-data/CC-MAIN-2017-34/segments/1502886104631.25/warc/CC-MAIN-20170818082911-20170818102911-00023.warc.gz",
...
"offset":"504411150",
"length":"14169",
...
}
该filename
条目指示哪个存档段包含此特定页面的 WARC 文件。这个存档文件很大;但幸运的是,该条目还包含offset
和length
字段,可用于请求包含存档段相关子集的字节范围(例如,参见本要点中的第 22-30 行)。
我的问题:
给定 WARC 文件段的位置,我知道如何构造相应 WAT 存档段的名称(例如,参见本教程)。我只需要 WAT 文件的一个子集,所以我想请求一个字节范围。但是如何找到 WAT 存档段的相应偏移量和长度?
我已经检查了Common Crawl 索引服务器的API 文档,但我不清楚这是否可行。但如果是这样,我会发布这个问题。