1

邮轮行业有几个网站我想了解一下。示例: http ://www.silversea.com/cruise/cruise-results/?page_num=1 http://www.seabourn.com/find-luxury-cruise-vacation/FindCruises.action?cfVer=2&destCode=&durationCode= &dateCode=&shipCodeSearch=&portCode=

在某些情况下,如第一个所示,结果页面遵循模式 - ?page_num=1...17。但是,结果的数量会随时间而变化。

在第二种情况下,URL 不会随着分页而改变。

归根结底,我想做的是将每个网站的结果放入一个文件中。

Q1:除了为场景 1 设置 17 个爬虫,然后随着时间的推移积极观察结果的增长/收缩,还有其他选择吗?

Q2:我完全不知道如何从第二个场景中抓取内容。

4

2 回答 2

1

我建议您构建一个提取器来获取分页。这个提取器的结果将是一个链接列表,每个链接对应一个页面。

这样,每次你运行你的应用程序并且页面数量发生变化时,你总是会得到所有的页面。

之后,对每个页面进行调用以获取所需的数据。

提取器 1:获取页面——输入:第一个 URL

提取器 2:获取项目(数据)——输入:提取器 1 的结果

于 2015-07-08T22:10:46.927 回答
1

Q1- (import.io) 的免费工具无法主动观察数据随时间的变化。您可以做的是让提取器批量提取数据(有 17 页,这将非常快)并添加到数据库中。在每次进入数据库后,可以对这些条目进行重复数据删除或将其标记为唯一。您可以在 Excel 中手动或以编程方式执行此操作。

他们的企业(数据即服务)可以为您做到这一点。

Q2- 如果每个页面没有唯一的 URL,则唯一可以为您分页页面的工具是连接器。

于 2015-07-08T20:48:15.293 回答