pagination - 使用 import.io 抓取分页结果的最佳方法

Question

在某些情况下，如第一个所示，结果页面遵循模式 - ?page_num=1...17。但是，结果的数量会随时间而变化。

在第二种情况下，URL 不会随着分页而改变。

归根结底，我想做的是将每个网站的结果放入一个文件中。

Q1：除了为场景 1 设置 17 个爬虫，然后随着时间的推移积极观察结果的增长/收缩，还有其他选择吗？

Q2：我完全不知道如何从第二个场景中抓取内容。

score 1 · Accepted Answer

我建议您构建一个提取器来获取分页。这个提取器的结果将是一个链接列表，每个链接对应一个页面。

这样，每次你运行你的应用程序并且页面数量发生变化时，你总是会得到所有的页面。

之后，对每个页面进行调用以获取所需的数据。

提取器 1：获取页面——输入：第一个 URL

提取器 2：获取项目（数据）——输入：提取器 1 的结果

score 1 · Accepted Answer

Q1- (import.io) 的免费工具无法主动观察数据随时间的变化。您可以做的是让提取器批量提取数据（有 17 页，这将非常快）并添加到数据库中。在每次进入数据库后，可以对这些条目进行重复数据删除或将其标记为唯一。您可以在 Excel 中手动或以编程方式执行此操作。

他们的企业（数据即服务）可以为您做到这一点。

Q2- 如果每个页面没有唯一的 URL，则唯一可以为您分页页面的工具是连接器。

2 回答 2