问题标签 [web-scraping]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41702 问题

0 投票

1 回答

809 浏览

c# - 如何对各种新闻来源进行数据挖掘？

我正在开发一个免费的网络应用程序，它将全天分析头条新闻并提供统计数据。大多数新闻网站都提供 RSS 提要，可以很好地了解要检索哪些故事。然而，当试图从新闻网站本身获取完整的新闻报道时，就会出现问题。目前，我为每个来源（CNN、纽约时报等）都有单独的NewsSource类，它们读取适当的 RSS 提要、跟踪每个链接并去除正文。当新闻网站决定更改其文章的 HTML 结构时，这似乎很乏味且非常难以管理。

是否有一项服务（最好是免费的）已经将多个新闻来源与完整的文章内容（不仅仅是摘要）聚合在一起？如果没有，您对处理具有不同 HTML 结构的多个来源有什么建议，这些来源可能会在没有通知的情况下发生变化？

c#web-scraping rss data-mining feed

2009-07-14T18:27:18.253

0 投票

2 回答

5170 浏览

php - 如何最好地在 PHP 中搜索网站和检索数据？

尝试学习更多 PHP。这就是我所追求的。

本质上，我想搜索一个网站并将数据返回到我自己的网站。

在表单中添加一些关键字。
使用这些关键字查询诸如 monster.com 之类的网站以获取与输入的关键字匹配的结果。
获取该数据并将其返回到我自己的网站。

这样的事情有多难？我承认上述大纲过于简单，但您可以提供的任何提示都非常感谢。

php search web web-scraping

2009-07-17T03:45:46.563

0 投票

3 回答

1447 浏览

python - 用于下载所有 Ctrl+Alt+Del 网络漫画的 python 脚本？

有人有吗？我试过 Comicdownloader 但这只能让我下载最新的漫画，而且我对 Python 的理解还不够好，无法弄清楚如何更改它以下载所有漫画

python download web-scraping

stopmoclay

2009-07-25T21:27:11.877

0 投票

4 回答

2302 浏览

java - 如何使用 Java 以正确的编码检索 HTML 页面？

如何在页面编码中读取带有 HTML 页面的 HTTP 流？

这是我用来获取 HTTP 流的代码片段。InputStreamReader有 encoding 可选参数，但我不知道如何获取它。

java html http web-scraping

pheasant

2009-08-10T15:57:46.183

0 投票

4 回答

122769 浏览

html - 使用 XML 包将 html 表抓取到 R 数据帧中

如何使用 XML 包抓取 html 表？

以巴西足球队的这个维基百科页面为例。我想在 R 中阅读它并获取“巴西与国际足联认可的球队进行的所有比赛的列表”表作为 data.frame。我怎样才能做到这一点？

html r xml parsing web-scraping

2009-09-08T18:27:33.890

0 投票

4 回答

13154 浏览

java - 如何使用 Java 从服务器端的特定 URL 获取 HTML 内容？

我正在设计一个应用程序，该应用程序需要使用 Java 从服务器端的特定 URL 加载 HTML 内容。我该如何解决？

问候，

java web-scraping

2009-09-12T04:44:14.330

0 投票

1 回答

272 浏览

php - 阅读网站页面

假设有一个名为http://example.com/a的网站

该网站正在使用 PHP、Perl、Ruby 和其他语言开发。

我希望能够从我的网站读取此网站页面，执行代码，然后分析 HTML 结果页面标签并使用 PHP 获取内容。

这就像从一些新闻网站上阅读新闻，然后以不同的格式或不同的风格将其显示在我的网站上。

php html regex web-scraping

2009-09-30T16:55:45.283

0 投票

4 回答

2660 浏览

php - 检索部分网页

有什么方法可以限制 CURL 获取的数据量吗？我正在从 50kb 的页面上抓取数据，但是我需要的数据位于页面的顶部 1/4，所以我真的只需要检索页面的前 10kb。

我之所以问，是因为我需要监控大量数据，这导致我每月传输近 60GB 的数据，而只有大约 5GB 的带宽是相关的。

我正在使用 PHP 来处理数据，但是我的数据检索方法很灵活，我可以使用 CURL、WGET、fopen 等。

我正在考虑的一种方法是

以上是否意味着我只会从 www.website.com 传输 6kb，或者 fopen 会将 www.website.com 加载到内存中意味着我仍将传输完整的 50kb？

php curl web-scraping wget fopen

2009-10-08T16:29:00.117

0 投票

2 回答

1259 浏览

web-scraping - 黄页数据的免费来源？

是否有包含基本黄页数据（姓名、地址、电话号码）的免费资源？我不介意它是否过时。我用谷歌找不到任何东西。为了澄清我正在寻找数据转储，我知道我可以去黄页.com 或其他任何常规查询。作为最后的手段，我可能会刮掉它。

web-scraping

2009-10-27T23:07:21.173

0 投票

7 回答

5423 浏览

web - 在 URL 中查找公司名称

给定一家知名公司的 URL（例如http://mcdonalds.com/），您将如何自动且可靠地找到公司名称（在本例中为“Mc Donalds”）？

谢谢

编辑：有人投票结束了这个问题，所以也许我需要解释一下动机。我有大量公司 URL，我想使用 Google 地图查找有关每家公司的数据。使用公司名称搜索 Google 地图比使用 URL 更有效。

删除“http”和“com”在很多情况下确实有效，特别是对于知名公司，但不是全部。我发现whois记录不是很有帮助。

我希望有某种公共数据库将公司与 URL 相匹配，但到目前为止还没有遇到过。

web web-scraping

2009-11-10T12:50:14.333

1 2 3 4 5 6 7 8 9 10