这是我的第一篇文章,所以如果我的问题太模糊或不清楚,请告诉我。我正在尝试为一个研究项目抓取一个包含新闻文章的网站。但是该网页上修改后的搜索链接将不起作用,因为 Intranet-authentication 会吐出错误。所以我的想法是,我填写搜索表并使用生成的链接来抓取网站。由于我的老板喜欢使用 R,他希望我写一个 R 脚本来这样做,但我不知道如何做,也没有发现任何工作。
1 回答
0
你需要两个包:RCurl
和XML
. 该RCurl
软件包用于互联网浏览。它可以使用 _GET 或 _PUT 参数访问 HTML 表单。因此,您可以使用它登录或填写任何表格。
服务器的输出将是 HTML。如果你想 grep 链接,你可以使用XLM
package. 我帮助获取任何 XML 格式的数据。
但在开始之前,您必须找出那是网页中的搜索表单(并且应该使用该参数)。Firefox 浏览器可能很有用。您需要两个加载项:Live HTTP 标头和 Firebug。使用这些加载项,您可以更轻松地检查网页。
我知道它并没有解决你的问题,但我不能再多说,因为它加深了特定情况和网页结构。我相信我提到的工具足以实现您想要的。
打赌问候。
于 2014-02-27T12:52:19.590 回答