1

我正在尝试使用 RSelenium 包,我注意到 getPageSource() 方法在某些网站上失败(但在其他网站上没有) - 请参阅此示例,使用出现在 Relenium 文档中的网站:

library(RSelenium)
remDr = remoteDriver$new()
startServer()
remDr$open()

这失败了:

remDr$navigate("http://www.google.com")
left(remDr$getPageSource()[[1]],300)

fromJSON 中的错误(内容,处理程序,default.size,深度,allowComments,:无效的 JSON 输入

这成功了:

remDr$navigate("http://www.bbc.co.uk")
left(remDr$getPageSource()[[1]],300)

[1] "\r\nhttp://www.w3.org/1999/xhtml\" lang=\"en\" class=\"orb-js bbcdotcom bbcdotcom-responsive ads-enabled js flexbox flexboxlegacy csscolumns cssgradients csstransforms fontface生成内容 svg inlinesvg cssfilters bbcdotcom-init bbccom-group-4 bbcdotcom-analytics-init wwhp"

有谁知道获取页面源的解决方案或解决方法?请注意,dos 中描述的使用 google 站点的示例确实有效 - RSelenium 可以查找和访问页面中的元素。只是 getPageSource() 方法失败了。

4

0 回答 0