python - 当列表中有更多 URL 时，Import.io 批量提取会变慢

Question

我设置了一个 Import.io 批量提取，可以很好地处理 50 个 URL。它实际上在几秒钟内就可以穿过所有这些。但是，当我尝试提取 40,000 个 URL 时，提取器在前一千个左右的时间里启动得非常快，然后每个增量 URL 都会逐渐变慢。到 5,000 时，每个 URL 大约需要 4-5 秒。

一种似乎可行的解决方案是一次将它们分成 1,000 个 URL 的块，并为每个块进行单独的批量提取。但是，这非常耗时，并且需要在最后将所有数据拼接在一起。

有没有人经历过这种情况，如果有，他们有更优雅的解决方案吗？

谢谢，迈克

score 4 · Accepted Answer

一个稍微不那么优雅的解决方案是创建一个爬虫。在你运行它之前，在“从哪里开始抓取”框中插入 10k 个 URL。

在高级选项下将抓取深度设置为零，这样您将只获得您放入开始抓取输入框中的页面。

这应该够了吧。此外，cawler 还有许多其他选项，例如页面之间的等待和并发页面等。

score 0 · Accepted Answer

迈克，你介意再试一次吗？我们已经研究了批量提取，现在开始时应该会稍微慢一些，但更稳定

可能 40k 还是太多了，这种情况下你可以尝试拆分，但我确实一次跑了 5k+

让我知道事情的后续！

python - 当列表中有更多 URL 时，Import.io 批量提取会变慢

2 回答 2

Related

Reference