问题标签 [web-crawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
653 浏览

search - 爬虫如何确保最大覆盖范围?

我阅读了一些关于网络爬虫的文章,学习了爬虫的基础知识。根据他们的说法,网络爬虫只是使用从其他网页检索到的 URL 并通过一棵树(实际上是一个网格)

在这种情况下,爬虫如何确保最大覆盖范围。显然,可能有很多网站没有来自其他页面/网站的推荐链接。搜索引擎是否遵循除爬取和手动注册之外的任何其他机制?(即从域名注册机构获取信息)

如果只是基于爬取,我们应该如何选择一组好的“Root”站点开始爬取呢?(我们无法预测结果。如果我们选择 100 个没有引荐链接的站点,引擎将只得出 100 个站点 + 它们的内页)

0 投票
3 回答
269 浏览

php - 使用 PHP 从提交的 URL 复制 Digg 的图像建议

所以我正在寻找关于如何最好地复制在 digg 上看到的功能的想法。本质上,您提交您感兴趣页面的 URL,然后挖掘 DOM 以查找所有 IMG 标签(可能只选择一些高于特定高度/宽度的标签),然后从中创建一个缩略图并询问您哪个您想代表您的提交。

虽然那里发生了很多事情,但我主要对从提交页面检索图像的最佳方法感兴趣。

0 投票
5 回答
3343 浏览

php - 爬行刮和穿线?用 php

我有一个个人网站,可以从我最喜欢的音乐博客中抓取和收集 MP3 以供以后收听...

它的工作方式是 CRON 作业每分钟运行一次 .php 脚本,以抓取数据库中的下一个博客。结果被放入数据库,然后第二个 .php 脚本抓取收集到的链接。

脚本只爬入页面的两个级别,因此.. 主页 www.url.com 和该页面上的链接 www.url.com/post1 www.url.com/post2

我的问题是,当我开始收集更多的博客时。它们每 20 到 30 分钟才被扫描一次,当我将新博客添加到脚本中时,会在扫描链接时进行备份,因为每分钟只处理一个链接。

由于 PHP 的工作方式,由于脚本执行时间的原因,我似乎不能只允许脚本处理多个或有限数量的链接。内存限制。超时等

此外,我不能运行同一脚本的多个实例,因为它们会在数据库中相互覆盖。

我可以加快这个过程的最佳方法是什么。

有没有一种方法可以让多个脚本影响数据库但写入它们以便它们不会相互覆盖但将结果排队?

有没有办法在 PHP 中创建线程,以便脚本可以按照自己的节奏处理链接?

有任何想法吗?

谢谢。

0 投票
2 回答
867 浏览

web-crawler - 良好的网络爬虫“礼仪”指南

我正在构建一个搜索引擎(为了好玩),这让我感到震惊,我的小项目可能会因点击广告和各种问题而造成严重破坏。

那么好的网络爬虫“礼仪”的指导方针是什么?

想到的事情:

  1. 遵守 Robot.txt 说明
  2. 限制对同一域的同时请求数
  3. 不关注广告链接?

阻止爬虫点击广告 - 目前我特别想到这个......我如何阻止我的机器人“点击”广告?如果它直接进入广告中的网址,是否算作点击?

0 投票
3 回答
3251 浏览

python - 将网络爬虫与 Django 前端接口

我正在尝试做三件事。

一:至少每天抓取和归档一组预定义的网站。

二:在这个数据上运行一夜之间的批处理python脚本(文本分类)。

三:向用户公开一个基于 Django 的前端,让他们搜索爬取的数据。

我一直在玩 Apache Nutch/Lucene,但是当我可以使用另一个爬虫引擎时,让它与 Django 一起玩似乎太难了。

问题950790建议我可以在 Django 本身中编写爬虫,但我不知道该怎么做。

基本上 - 在 Django 中编写爬虫的任何指针或我可以适应的现有 python 爬虫?或者我应该在第二步中加入“变成 Django 友好的东西”并编写一些胶水代码?或者,最后,我应该完全放弃 Django 吗?不过,我真的需要一些可以从前端快速搜索的东西。

0 投票
7 回答
13645 浏览

web-crawler - 网络爬虫的理想程序语言是什么?

我需要构建一个内容收集程序,该程序将简单地读取指定网页上的数字,并保存该数据以供以后分析。我不需要它来搜索链接或相关数据,只需从每天都会更改内容的网站收集所有数据。

我的编程经验很少,我希望这对学习有好处。速度不是什么大问题,我估计爬虫一天最多要加载 4000 个页面。

谢谢。

编辑:是否有任何方法可以提前测试我从中收集数据的网站是否受到爬虫的保护?

0 投票
6 回答
2791 浏览

search-engine - 谷歌在我的网站上索引了我的测试文件夹:(我如何限制网络爬虫!

帮助 帮助!谷歌在我的网站上索引了一个测试文件夹,没有人知道我应该知道的:(!我如何限制谷歌索引链接和某些文件夹。

0 投票
4 回答
961 浏览

screen-scraping - 实现 Visual Web Scraper 的技术是什么?

我将构建一个可视化网络爬虫。软件所需的最重要功能是“视觉”,例如http://mozenda.com/。该软件创建了一个像网络浏览器这样的工具,不仅允许用户浏览网页,执行一些任务,如身份验证,点击链接,进行搜索,......而且可以跟踪所有这些任务。有谁知道实现这一点的技术?谢谢。

0 投票
3 回答
1940 浏览

asp.net - Perl 网络爬虫如何跟踪 ASP.NET 回发?

我正在用 Perl/LWP 构建一个网络爬虫。网络爬虫如何跟踪 ASP.NET 网格中的链接,如下所示:

0 投票
1 回答
296 浏览

php - 我如何从爬虫获取数据到我的网站?

将数据从外部爬虫获取到我的数据库、到我在 LAMP 环境中工作的网站的最佳方法是什么,网络服务是个好主意吗?爬虫每 15 分钟运行一次。