Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试从知识网络上的 75,000 篇文章中收集数据。所有数据都可以在每篇文章的网页上查看。作为编程的绝对初学者,我不确定除了手动之外如何完成。有没有我可以在 R 或任何其他平台上使用的代码来直接从网页中提取数据而无需下载所有文章?
rvest是一个非常好的用于抓取一般网络数据的 R 包。它几乎可以做任何 python 库Beautiful Soup或Scrapy做的事情。
rvest
Beautiful Soup
Scrapy
XML是另一个可用于网页抓取的软件包。
XML
对于抓取 Twitter,您可以使用twitteRpackage 和 for Facebook Rfacebookpackage。
twitteR
Rfacebook
使用RTidyHTML包来纠正 HTML 中的错误。
RTidyHTML