php - 将要如果我请求太多次，限制我访问他们的网站？

Question

我问这个是因为我正在创建一个蜘蛛来从 blogger.com 收集数据，用于大学的数据可视化项目。

蜘蛛将在博主的浏览功能上查找大约 17,000 个值，并且（匿名）保存符合正确标准的某些值。

我一直在运行蜘蛛（用 PHP 编写），它运行良好，但我不想将我的 IP 列入黑名单或类似的东西。有没有人了解企业网站以及他们对此类事情的限制？

此外，如果有限制，我能做些什么来规避它们吗？目前，我能想到的可以稍微帮助解决这个问题的是；在对站点的调用之间添加随机延迟（0 到 5 秒之间）或通过随机代理运行脚本以伪装请求。

由于不得不做上述方法之类的事情，这让我感觉好像我在做错事。如果他们出于某种原因阻止我，我会很生气，因为 blogger.com 归谷歌所有，他们的主要产品是网络蜘蛛。尽管如此，他们的蜘蛛不会只向一个网站发送请求。

score 10 · Accepted Answer

他们可能有某种限制，是的，有一些方法可以绕过它们（例如机器人农场和使用随机代理），但很可能它们都不完全合法，在技术上也不可行:)

如果你是访问博主，难道你不能使用API密钥登录并直接查询数据吗？这将比抓取他们的页面更可靠，更不容易出现麻烦，无论如何这可能是被禁止的，并且一旦请求数量足够大以至于他们开始关心，就会导致麻烦。谷歌对每个 API 密钥允许的流量非常慷慨。

如果一切都失败了，为什么不给他们写一封电子邮件。Google 以对学术项目友好而著称，如果需要，他们很可能会为您提供更多流量。

score 3 · Accepted Answer

由于您正在编写蜘蛛程序，因此请确保它读取robots.txt文件并进行相应操作。此外，HTTP 的规则之一是同一服务器上的并发请求不能超过 2 个。别担心，谷歌的服务器真的很强大。如果您当时只阅读第一页，他们可能甚至不会注意到。如果注入1秒间隔，将完全无害。

另一方面，使用僵尸网络或其他分布式方法被认为是有害行为，因为它看起来像 DDOS 攻击。你真的不应该朝那个方向思考。

score 1 · Accepted Answer

1

如果您想确定，请写一封电子邮件到 blogger.com 并询问他们。

于 2009-12-27T18:34:09.880 回答

score -2 · Accepted Answer

-2

您可以通过TOR请求它，您每次都会以性能成本获得不同的 ip。

于 2009-12-27T18:36:41.670 回答

4 回答 4