python - 无法使用请求从 Amazon s3 流式传输文件

Question

我正在尝试从 Common Crawl 流式传输爬取数据，但是当我使用stream=True参数获取请求时，Amazon s3 出错。这是一个例子：

resp = requests.get(url, stream=True)
print(resp.raw.read())

当我在 Common Crawl s3 http url 上运行它时，我得到了响应：

b'<?xml version="1.0" encoding="UTF-8"?>\n<Error><Code>NoSuchKey</Code>
<Message>The specified key does not exist.</Message><Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>
<RequestId>3652F4DCFAE0F641</RequestId><HostId>Do0NlzMr6
/wWKclt2G6qrGCmD5gZzdj5/GNTSGpHrAAu5+SIQeY15WC3VC6p/7/1g2q+t+7vllw=
</HostId></Error>'

我正在使用warcio，并且需要一个流文件对象作为归档迭代器的输入，并且由于内存有限，无法一次下载所有文件。我应该怎么办？

PS。我在示例中请求的网址是https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc。广州

score 1 · Accepted Answer

您的网址中有错误。比较您得到的响应中的密钥：

<Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>

到预期网址中的那个：

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz

出于某种原因，您添加了不必要的空格，可能是在文件读取期间拾取的（readline()每行都会给您尾随 '\n' 字符）。也许尝试调用.strip()以删除尾随的换行符。

python - 无法使用请求从 Amazon s3 流式传输文件

1 回答 1

Related

Reference