问题标签 [web-crawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
18 回答
143534 浏览

php - 如何使用 php 检测搜索引擎机器人?

如何使用 php 检测搜索引擎机器人?

0 投票
5 回答
1256 浏览

javascript - 保存/镜像/爬取使用javascript生成内容的网页

我想下载使用 javascript 输出数据的网页。Wget 可以做其他所有事情,但运行 javascript。

甚至像:firefox -remote "saveURL(www.mozilla.org, myfile.html)"

会很棒(不幸的是,这种命令不存在)。

0 投票
1 回答
1751 浏览

rss - 如何抓取提要

我的应用程序需要跟踪 RSS/Atom 提要并将新条目保存在数据库中。我的问题是,确定提要中的条目是否已被抓取的最可靠方法是什么?

我使用Universal Feed Parser模块来解析提要。我当前的实现会记录 的最新值feed.entry[i].updated_parsed,当抓取时,如果updated_parsed条目的值大于记录的值,则该条目将保存在数据库中。这里的问题是许多提要没有发布日期或更新日期。

0 投票
4 回答
3866 浏览

python - 我怎样才能使这个递归爬虫函数迭代?

出于学术和性能的考虑,鉴于这种爬网递归网络爬网功能(仅在给定域内爬网),使其迭代运行的最佳方法是什么?目前,当它运行时,当它完成时,python 已经使用超过 1GB 的内存,这对于在共享环境中运行是不可接受的。

0 投票
5 回答
9622 浏览

c# - 遍历 DirectoryEntry 或任何对象层次结构 - C#

我目前正在开发一个应用程序,它使用 System.DirectoryServices 命名空间来创建一个 DirectoryEntry 对象并遍历整个层次结构以收集信息。

我不知道层次结构中每个 DirectoryEntry 对象的子条目数,因此我无法通过 Children 属性为蜘蛛创建 N 个嵌套循环

这是我的伪代码示例:

我的问题是,如果您不知道对象中子目录的数量,那么创建一个循环来收集信息的最佳方法是什么?

(这可以应用于您不知道对象层次结构的任何类型的对象)

0 投票
10 回答
3597 浏览

nlp - Crawling The Internet

I want to crawl for specific things. Specifically events that are taking place like concerts, movies, art gallery openings, etc, etc. Anything that one might spend time going to.

How do I implement a crawler?

I have heard of Grub (grub.org -> Wikia) and Heritix (http://crawler.archive.org/)

Are there others?

What opinions does everyone have?

-Jason

0 投票
4 回答
419 浏览

web-crawler - 网站蜘蛛自动检测

是否可以编写代码来检测网站是否在抓取内容?

0 投票
2 回答
204 浏览

linker - 自动查找内容链接的最佳方式?

所以,这是我发现自己正在考虑的任务。假装一下,我有大量的内容。我想查看哪些网站链接到我的内容。我知道我可以查看 TrackBack 或 PingBack,但是那些不使用能够处理它的工具的人呢?

似乎某种形式的网络爬虫寻找链接到原始文档的页面可能很有用。我向更大的社区提出的问题是,从这里开始的最佳方式是什么?TrackBack 和 PingBack 做的比我想象的要多吗?是否有服务或工具可以满足我的想法?

0 投票
4 回答
1883 浏览

web-crawler - 用于抓取和挖掘网站数据的最佳开源库或应用程序

我想知道用于抓取和分析网站的最佳 eopen-source 库是什么。一个例子是爬虫物业机构,我想从多个站点获取信息并将它们聚合到我自己的站点中。为此,我需要抓取网站并提取物业广告。

0 投票
4 回答
9367 浏览

open-source - 网络蜘蛛与 Wget 的蜘蛛有何不同?

下一句在 Wget 的手册中引起了我的注意

我发现以下与 wget 中的蜘蛛选项相关的代码行。

我想看看代码的差异,而不是抽象的。我喜欢代码示例。

网络蜘蛛在代码中与 Wget 的蜘蛛有何不同?