0

我正在尝试为文章标题抓取网站,但是当用户向下滚动页面时,此页面仅加载前五个标题并加载更多(JSON 调用更多文章并注入页面)。

我构建的网络爬虫完美运行,但只能找到前 5 篇默认文章,而我想要实现的是加载超过 5 篇。有没有办法使用 PHP 来实现,如果你能解释我为什么/如何我真的很感激它,因为我喜欢学习这些东西。

4

1 回答 1

3

您可以使用 chrome 的网络监视器来记录 ajax 请求的来源,然后从您的 webscraper 请求这些请求,但这确实是一个“make shift api”,如果站点更改为 json 格式,您可以使用 php 函数json_decode 对 json 进行解码。

为了首先检索数据,您必须使用 file_get_contents

但这只会允许 GET 如果您想要更多“高级”选项(例如 POST ),您将不得不查看 cURL

于 2012-04-01T10:14:25.943 回答