-1

我目前正在考虑编写一个脚本,该脚本正在寻找来自谷歌新闻搜索的新文章。所以我想下载前 10-20 篇文章并将其保存到一个文件夹中。最好只有正文而不是整个 html 文件。

举个例子:在这里搜索词“FC Barcelona”文件夹“01.01.2020”文章

4

1 回答 1

3

考虑使用 Google 新闻 RSS 提要。它已经被格式化为易于解析的格式。您可以使用以下格式执行搜索。

https://news.google.com/rss/search?{query}q=keywords对于您的示例搜索,查询可以是这样Searchterm "FC Barcelona"。查询必须是 urlencoded。这可以用 Python 完成

import requests
from urllib.parse import urlencode
query = urlencode({'q': 'Searchterm "FC Barcelona"'})
url = "https://news.google.com/rss/search?" + query

# make requests
resp = requests.get(url)
# parse request

然后,您可以根据需要解析提要并将数据放入文件夹中。

于 2020-07-14T14:00:22.163 回答