我目前正在考虑编写一个脚本,该脚本正在寻找来自谷歌新闻搜索的新文章。所以我想下载前 10-20 篇文章并将其保存到一个文件夹中。最好只有正文而不是整个 html 文件。
举个例子:在这里搜索词“FC Barcelona”文件夹“01.01.2020”文章
我目前正在考虑编写一个脚本,该脚本正在寻找来自谷歌新闻搜索的新文章。所以我想下载前 10-20 篇文章并将其保存到一个文件夹中。最好只有正文而不是整个 html 文件。
举个例子:在这里搜索词“FC Barcelona”文件夹“01.01.2020”文章
考虑使用 Google 新闻 RSS 提要。它已经被格式化为易于解析的格式。您可以使用以下格式执行搜索。
https://news.google.com/rss/search?{query}
q=keywords
对于您的示例搜索,查询可以是这样Searchterm "FC Barcelona"
。查询必须是 urlencoded。这可以用 Python 完成
import requests
from urllib.parse import urlencode
query = urlencode({'q': 'Searchterm "FC Barcelona"'})
url = "https://news.google.com/rss/search?" + query
# make requests
resp = requests.get(url)
# parse request
然后,您可以根据需要解析提要并将数据放入文件夹中。