2

我问这个是因为我正在创建一个蜘蛛来从 blogger.com 收集数据,用于大学的数据可视化项目。

蜘蛛将在博主的浏览功能上查找大约 17,000 个值,并且(匿名)保存符合正确标准的某些值。

我一直在运行蜘蛛(用 PHP 编写),它运行良好,但我不想将我的 IP 列入黑名单或类似的东西。有没有人了解企业网站以及他们对此类事情的限制?

此外,如果有限制,我能做些什么来规避它们吗?目前,我能想到的可以稍微帮助解决这个问题的是;在对站点的调用之间添加随机延迟(0 到 5 秒之间)或通过随机代理运行脚本以伪装请求。

由于不得不做上述方法之类的事情,这让我感觉好像我在做错事。如果他们出于某种原因阻止我,我会很生气,因为 blogger.com 归谷歌所有,他们的主要产品是网络蜘蛛。尽管如此,他们的蜘蛛不会只向一个网站发送请求。

4

4 回答 4

10

他们可能有某种限制,是的,有一些方法可以绕过它们(例如机器人农场和使用随机代理),但很可能它们都不完全合法,在技术上也不可行:)

如果你是访问博主,难道你不能使用API​​密钥登录并直接查询数据吗?这将比抓取他们的页面更​​可靠,更不容易出现麻烦,无论如何这可能是被禁止的,并且一旦请求数量足够大以至于他们开始关心,就会导致麻烦。谷歌对每个 API 密钥允许的流量非常慷慨。

如果一切都失败了,为什么不给他们写一封电子邮件。Google 以对学术项目友好而著称,如果需要,他们很可能会为您提供更多流量。

于 2009-12-27T18:32:28.137 回答
3

由于您正在编写蜘蛛程序,因此请确保它读取robots.txt文件并进行相应操作。此外,HTTP 的规则之一是同一服务器上的并发请求不能超过 2 个。别担心,谷歌的服务器真的很强大。如果您当时只阅读第一页,他们可能甚至不会注意到。如果注入1秒间隔,将完全无害。

另一方面,使用僵尸网络或其他分布式方法被认为是有害行为,因为它看起来像 DDOS 攻击。你真的不应该朝那个方向思考。

于 2009-12-27T18:39:35.063 回答
1

如果您想确定,请写一封电子邮件到 blogger.com 并询问他们。

于 2009-12-27T18:34:09.880 回答
-2

您可以通过TOR请求它,您每次都会以性能成本获得不同的 ip。

于 2009-12-27T18:36:41.670 回答