我正在尝试抓取多个网站并将信息导出到一个.csv
或理想的.xslx
文件中。到目前为止,我已经完成了使用以下代码抓取一个包含多个条目的站点:
import requests
r = requests.get("https://www.company_name/our-portfolio-companies")
from bs4 import BeautifulSoup
doc = BeautifulSoup(r.text, "html.parser")
for company_headline in doc.select(".company_headline a"):
name = company_headline.text
for website in doc.select(".subinfo_website"):
website = website.text[19:]
出来的是我的 Jupiter 笔记本中的投资组合公司及其各自网站的列表。我采取了简单的方法,只是将信息直接复制/粘贴到 Excel 中,以进一步完善它。
但是,我被困在下一步。如果我现在尝试查找我找到的约 400 家投资组合公司的地址。我首先需要找出隐藏该信息的位置。我的想法是要求 Python ping 每个相应的约 400 个站点,并添加./contact-us
,等./contact
,./about-us
并列出它以防收到 200 个回复。然后在下一步中在 HTML 中搜索“地址:”之类的单词并复制接下来的 40 个字母。
我在正确的轨道上吗?有人可以帮助我或指出正确的方向,我可以阅读更多内容以了解如何做到这一点?