3

我正在尝试使用 BeautifulSoup 从 Google 学者的作者那里获取所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者列表,我必须打开论文的链接才能获得完整列表。结果,我每隔几次尝试就会遇到验证码。

有没有办法避免验证码(例如每次请求后暂停 3 秒)?或者制作原始的 Google Scholar 个人资料页面以显示完整的作者列表?

4

1 回答 1

8

最近我遇到了类似的问题。我至少通过一个简单的解决方法简化了我的收集过程,方法是实现一个随机相当长的睡眠,如下所示:

import time
import numpy as np

time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds

如果你有足够的时间(比如说在晚上启动你的解析器),你可以做更大的停顿(大 3 倍以上)以确保你不会得到验证码。

此外,您可以在对站点的请求中随机更改user-agents,这将更加掩盖您。

于 2017-07-19T15:20:42.097 回答