web-crawler - 带有下拉菜单的 import.io 网络爬虫

Question

我首先要说我对此很陌生，所以如果有一个简单或明显的答案，我深表歉意。

我安装了 import.io 并且工作正常，但我遇到了问题。我要废弃的网站是http://hockeyanalysis.com/stats/index.php，你可以看到有几个下拉菜单。我感兴趣的两个是两支球队的数据、赛季和情况。

我想从前 5 年和每年的所有 36 种情况中删除数据。是的，我知道这只有 180 种不同的可能性，我可以手工完成，但我将其用作学习机会。

这是其中一个网址的示例。http://hockeyanalysis.com/stats/teamstats.php?db=201415&sit=5v5&disp=1

我知道每年db=201415可以改成201314等等，我也知道sit=5v5可以是5v5home、5v5road、5v5close等等。这些不遵循我认为的逻辑路径，但我可以简单地复制和粘贴它们。例如，我想做的是让 db=201415 和 sat=5v5, 5v5home, 5v5road，然后更改 db=201314, 201213 并让 import.io 为提供的其他人填写座位。意思是，我会用 5 个例子训练它，它可以在剩下的 4 个例子中训练。

这可能吗？有没有其他方法可以解决这个问题？感谢您的反馈。

score 2 · Accepted Answer

在此示例中，import.io 可以为您提取该数据，但无法为您生成 URL。

您将需要使用具有批量提取功能的提取器。这是有关此主题的知识库的链接：http: //support.import.io/knowledgebase/articles/569499-extractor

这些 URL 可以在 Excel 或 Google 表格中轻松生成。

我为您创建了一个示例： https ://docs.google.com/spreadsheets/d/17oZHwGhMHv7tYQJqaOI2FkJH2OePvyERipPtB8-GGlw/edit#gid=0

score 0 · Accepted Answer

您是否尝试过使用提取器或爬虫？因为爬虫应该能够处理这个问题。

只需在Where to extract data from?中使用db={num}和sit={alpha}作为 URL 的一部分？高级爬虫设置的一部分。

像这样的东西：

hockeyanalysis.com/stats/teamstats.php?db={num}&sit={alpha}&disp=1$

这将告诉您的爬虫只从与上述模板匹配的 URL 中获取数据。

web-crawler - 带有下拉菜单的 import.io 网络爬虫

2 回答 2

Related

Reference