php - php 爬虫 - 如何使用 JSESSIONID 处理 url

Question

一种。我在 xyz.com/items/advsearch 上使用一个简单的 url 爬虫（如何在 PHP 中制作一个简单的爬虫？）。该页面列出了某人进行高级搜索后的结果（列出了所有结果）。我必须复制/废弃这些结果。现在，当我转到“Next>”页面时，它的 url 被编码并爬到“Next>”的 url 使我回到显示 0 个结果的高级搜索的主页。

湾。我注意到的另一件事是：在简单的人工 url 遍历中，'Next>' 的 url 没有 jessionid 作为参数，而在使用 file_get_contents() 获取页面的 html 时，它有它。为什么会这样？？

我发现很难弄乱我无法抓取的编码网址/会话内容！需要紧急帮助。

score 0 · Accepted Answer

jsessionid 通常在 cookie 中存储和发送。如果 Java 应用程序注意到客户端可能不支持 cookie，则将其添加到链接 URL 只是一种后备。这可能是为什么在使用 Web 浏览器遍历页面时没有将 jsessionid 参数添加到 URL 的原因，因为您的浏览器确实可以正确处理 cookie，而您的 PHP 脚本却没有。

php - php 爬虫 - 如何使用 JSESSIONID 处理 url

1 回答 1

Related

Reference