问题标签 [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
809 浏览

c# - 如何对各种新闻来源进行数据挖掘?

我正在开发一个免费的网络应用程序,它将全天分析头条新闻并提供统计数据。大多数新闻网站都提供 RSS 提要,可以很好地了解要检索哪些故事。然而,当试图从新闻网站本身获取完整的新闻报道时,就会出现问题。目前,我为每个来源(CNN、纽约时报等)都有单独的NewsSource类,它们读取适当的 RSS 提要、跟踪每个链接并去除正文。当新闻网站决定更改其文章的 HTML 结构时,这似乎很乏味且非常难以管理。

是否有一项服务(最好是免费的)已经将多个新闻来源与完整的文章内容(不仅仅是摘要)聚合在一起?如果没有,您对处理具有不同 HTML 结构的多个来源有什么建议,这些来源可能会在没有通知的情况下发生变化?

0 投票
2 回答
5170 浏览

php - 如何最好地在 PHP 中搜索网站和检索数据?

尝试学习更多 PHP。这就是我所追求的。

本质上,我想搜索一个网站并将数据返回到我自己的网站。

  1. 在表单中添加一些关键字。
  2. 使用这些关键字查询诸如 monster.com 之类的网站以获取与输入的关键字匹配的结果。
  3. 获取该数据并将其返回到我自己的网站。

这样的事情有多难?我承认上述大纲过于简单,但您可以提供的任何提示都非常感谢。

0 投票
3 回答
1447 浏览

python - 用于下载所有 Ctrl+Alt+Del 网络漫画的 python 脚本?

有人有吗?我试过 Comicdownloader 但这只能让我下载最新的漫画,而且我对 Python 的理解还不够好,无法弄清楚如何更改它以下载所有漫画

0 投票
4 回答
2302 浏览

java - 如何使用 Java 以正确的编码检索 HTML 页面?

如何在页面编码中读取带有 HTML 页面的 HTTP 流?

这是我用来获取 HTTP 流的代码片段。InputStreamReader有 encoding 可选参数,但我不知道如何获取它。

0 投票
4 回答
122769 浏览

html - 使用 XML 包将 html 表抓取到 R 数据帧中

如何使用 XML 包抓取 html 表?

巴西足球队的这个维基百科页面为例。我想在 R 中阅读它并获取“巴西与国际足联认可的球队进行的所有比赛的列表”表作为 data.frame。我怎样才能做到这一点?

0 投票
4 回答
13154 浏览

java - 如何使用 Java 从服务器端的特定 URL 获取 HTML 内容?

我正在设计一个应用程序,该应用程序需要使用 Java 从服务器端的特定 URL 加载 HTML 内容。我该如何解决?

问候,

0 投票
1 回答
272 浏览

php - 阅读网站页面

假设有一个名为http://example.com/a的网站

该网站正在使用 PHP、Perl、Ruby 和其他语言开发。

我希望能够从我的网站读取此网站页面,执行代码,然后分析 HTML 结果页面标签并使用 PHP 获取内容。

这就像从一些新闻网站上阅读新闻,然后以不同的格式或不同的风格将其显示在我的网站上。

0 投票
4 回答
2660 浏览

php - 检索部分网页

有什么方法可以限制 CURL 获取的数据量吗?我正在从 50kb 的页面上抓取数据,但是我需要的数据位于页面的顶部 1/4,所以我真的只需要检索页面的前 10kb。

我之所以问,是因为我需要监控大量数据,这导致我每月传输近 60GB 的数据,而只有大约 5GB 的带宽是相关的。

我正在使用 PHP 来处理数据,但是我的数据检索方法很灵活,我可以使用 CURL、WGET、fopen 等。

我正在考虑的一种方法是

以上是否意味着我只会从 www.website.com 传输 6kb,或者 fopen 会将 www.website.com 加载到内存中意味着我仍将传输完整的 50kb?

0 投票
2 回答
1259 浏览

web-scraping - 黄页数据的免费来源?

是否有包含基本黄页数据(姓名、地址、电话号码)的免费资源?我不介意它是否过时。我用谷歌找不到任何东西。为了澄清我正在寻找数据转储,我知道我可以去黄页.com 或其他任何常规查询。作为最后的手段,我可​​能会刮掉它。

0 投票
7 回答
5423 浏览

web - 在 URL 中查找公司名称

给定一家知名公司的 URL(例如http://mcdonalds.com/),您将如何自动且可靠地找到公司名称(在本例中为“Mc Donalds”)?

谢谢

编辑:有人投票结束了这个问题,所以也许我需要解释一下动机。我有大量公司 URL,我想使用 Google 地图查找有关每家公司的数据。使用公司名称搜索 Google 地图比使用 URL 更有效。

删除“http”和“com”在很多情况下确实有效,特别是对于知名公司,但不是全部。我发现whois记录不是很有帮助。

我希望有某种公共数据库将公司与 URL 相匹配,但到目前为止还没有遇到过。