我想抓取https://www.socialbakers.com/,但在登录网站时发帖时无法处理多个重定向。第一个重定向是使用 JavaScript 进行重定向的 HTML 页面。
我想跟踪所有重定向请求 URL,以及是否可以对每个 URL 进行 post/get 请求。
我想抓取https://www.socialbakers.com/,但在登录网站时发帖时无法处理多个重定向。第一个重定向是使用 JavaScript 进行重定向的 HTML 页面。
我想跟踪所有重定向请求 URL,以及是否可以对每个 URL 进行 post/get 请求。
Goutte 是一个简单的网络爬虫,因为它不支持 JS。
如果你坚持使用 JS,那么你需要更强大的东西,比如 Selenium 或 PhantomJS。
看看 PhantomJS,它既简单又快速。
Selenium 也有一个用于 PhantomJS 的驱动程序,如果您更喜欢使用 PHP(您可以将Mink与 Selenium 和 PhantomJS 一起使用)。