我问这个是因为我正在创建一个蜘蛛来从 blogger.com 收集数据,用于大学的数据可视化项目。
蜘蛛将在博主的浏览功能上查找大约 17,000 个值,并且(匿名)保存符合正确标准的某些值。
我一直在运行蜘蛛(用 PHP 编写),它运行良好,但我不想将我的 IP 列入黑名单或类似的东西。有没有人了解企业网站以及他们对此类事情的限制?
此外,如果有限制,我能做些什么来规避它们吗?目前,我能想到的可以稍微帮助解决这个问题的是;在对站点的调用之间添加随机延迟(0 到 5 秒之间)或通过随机代理运行脚本以伪装请求。
由于不得不做上述方法之类的事情,这让我感觉好像我在做错事。如果他们出于某种原因阻止我,我会很生气,因为 blogger.com 归谷歌所有,他们的主要产品是网络蜘蛛。尽管如此,他们的蜘蛛不会只向一个网站发送请求。