我目前正在从事一个从 Google Scholar 抓取数据的项目。我希望抓取每个配置文件的居住国家/地区,但是没有明确列出。例如,鉴于列出的电子邮件地址来自 ucl.ac.uk,因此我希望从这个页面获得 UK。再举一个例子,从这个页面我想给荷兰,因为电子邮件地址来自 vumc.nl。但是,如果我们从 URL TLD 中查看此配置文件,我们无法确定国家/地区。
到目前为止,我已经编写了这段代码来捕获域:
import csv
from bs4 import BeautifulSoup
import urllib.request
import string
import time
url = 'https://scholar.google.com/citations?user=VGoSakQAAAAJ'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
buttons = soup.findAll("div", { "id" : "gsc_prf_ivh" })
for each in buttons:
s = each.text
那么,我如何才能从用户的 Google Scholar 个人资料中以相当高的准确度确定他们的国家/地区?