2

我首先要说我对此很陌生,所以如果有一个简单或明显的答案,我深表歉意。

我安装了 import.io 并且工作正常,但我遇到了问题。我要废弃的网站是http://hockeyanalysis.com/stats/index.php,你可以看到有几个下拉菜单。我感兴趣的两个是两支球队的数据、赛季和情况。

我想从前 5 年和每年的所有 36 种情况中删除数据。是的,我知道这只有 180 种不同的可能性,我可以手工完成,但我将其用作学习机会。

这是其中一个网址的示例。http://hockeyanalysis.com/stats/teamstats.php?db=201415&sit=5v5&disp=1

我知道每年db=201415可以改成201314等等,我也知道sit=5v5可以是5v5home、5v5road、5v5close等等。这些不遵循我认为的逻辑路径,但我可以简单地复制和粘贴它们。例如,我想做的是让 db=201415 和 sat=5v5, 5v5home, 5v5road,然后更改 db=201314, 201213 并让 import.io 为提供的其他人填写座位。意思是,我会用 5 个例子训练它,它可以在剩下的 4 个例子中训练。

这可能吗?有没有其他方法可以解决这个问题?感谢您的反馈。

4

2 回答 2

2

在此示例中,import.io 可以为您提取该数据,但无法为您生成 URL。

您将需要使用具有批量提取功能的提取器。这是有关此主题的知识库的链接:http: //support.import.io/knowledgebase/articles/569499-extractor

这些 URL 可以在 Excel 或 Google 表格中轻松生成。

我为您创建了一个示例: https ://docs.google.com/spreadsheets/d/17oZHwGhMHv7tYQJqaOI2FkJH2OePvyERipPtB8-GGlw/edit#gid=0

于 2015-07-06T23:50:32.477 回答
0

您是否尝试过使用提取器或爬虫?因为爬虫应该能够处理这个问题。

只需在Where to extract data from?中使用db={num}sit={alpha}作为 URL 的一部分 ?高级爬虫设置的一部分。

像这样的东西:

hockeyanalysis.com/stats/teamstats.php?db={num}&sit={alpha}&disp=1$

这将告诉您的爬虫只从与上述模板匹配的 URL 中获取数据。

于 2015-07-21T02:26:06.147 回答