问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
190 浏览

java - 为什么我只能获取网站主页的 HTML 而不能获取其他网站的主页?

我正在编写一个连接到网站并返回 HTML 的 Java 程序,由于某种原因我遇到了问题。现在我只能访问该网站,如果我这样做

但是如果我想访问一个更复杂的 URL,那么我会得到一个 UnknownHostException。起初我认为这可能与它无法识别 URL 中的某些字符有关,但我不确定。例如,这是我试图访问的 URL 之一。

....ETC

除了 UnknownHostException 之外,它不会返回任何东西。

有人请帮帮我!!!

0 投票
1 回答
438 浏览

java - 从 HTML 内容中修剪空格?

我有一个带有自定义富文本编辑器控件(实际上是 FCKEditor)的 CRUD 维护屏幕,程序从控件中提取格式化文本作为 HTML 以保存到数据库。但是,我们的部分标准是在保存之前需要从内容中去除前导和尾随空格,因此我必须删除无关的   和 <br> 等从 HTML 字符串的开头和结尾开始。

我可以选择在客户端(使用 Javascript)或在服务器端(使用 Java)执行此操作是否有一种简单的方法可以使用正则表达式或其他方式来执行此操作?我不确定它需要有多复杂,我需要能够删除以下内容:

如果中间有任何有意义的文本,请保留它。(以上片段来自测试人员保存的实际 HTML 数据)

0 投票
6 回答
175 浏览

php - 解析中的问题

我有一个页面,比如 abc.html,它有一个带有一些字段的小表单。

当我们再次提交表单时,它会再次返回 abc.html 并发布一些数据,并在处理发布数据后的页面上显示结果名称。

在整个过程中,页面 url 保持不变。现在我想在提交表单后解析这个包含数据的 abc.html。我已经完成了解析,其中原始 url 包含所有数据,但不是这样,提交后数据显示在页面上。请告诉我如何解析这样的页面?

0 投票
1 回答
6299 浏览

python - 使用 BeautifulSoup 选择特定的子元素

我正在阅读 BeautifulSoup 以对一些非常重的 html 页面进行屏幕抓取。通过 BeautifulSoup 的文档,我似乎找不到选择子元素的简单方法。

给定html:

鉴于我有对象顶部,我想要一种简单的方法来获得“我想要的内容”。来到 BeautifulSoup,我认为这很容易,类似于 topobj.nodes[1].nodes[0].string。相反,我只看到变量和函数也返回元素以及文本节点、注释等。

我错过了什么吗?或者我真的需要使用 .find() 或者更糟糕的是在 .contents 变量上使用 list comphrensions。

原因是我不相信网页的空白是相同的,所以我想忽略它,只遍历元素。

0 投票
2 回答
1129 浏览

java - 为什么 Swing Parser 的 handleText 不处理嵌套标签?

我需要转换一些具有嵌套标签的 HTML 文本,以使用 css 属性装饰“匹配”以突出显示它(如 firefox 搜索)。我不能只做一个简单的替换(例如,想想如果用户搜索“img”),所以我试图只在正文中进行替换(而不是在标签属性上)。

我有一个非常简单的 HTML 解析器,我认为应该这样做:

我的问题是,当我调试它时,handleText 会被包含标签的文本调用!就像它只深入一层。有谁知道为什么?我需要对 HTMLParser 做一些简单的事情(没有使用太多)来启用嵌套标签的“正确”行为吗?

PS - 我自己想通了 - 请参阅下面的答案。简短的回答是,如果您将其传递给 HTML,而不是预先转义的 HTML,它就可以正常工作。嗬!希望这对其他人有帮助。

0 投票
5 回答
8389 浏览

php - 根据内容创建数组
php中的标签

我将网页的内容分配给了一个变量$html

以下是内容的示例$html

如何,使用 PHP 可以创建一个数组来查找<div class="content"></div>像这样的区域的内容(对于上面的示例),所以:

输出

0 投票
6 回答
2169 浏览

python - Python RegEx 跳过前几个字符?

嘿,我有一个关于正则表达式的相当基本的问题。我只想返回正文标签内(包括)内的文本,我知道以下内容是不正确的,因为它也会匹配开始正文标签之前的所有字符。我想知道你将如何跳过这些?

谢谢!

0 投票
2 回答
1767 浏览

php - 将网页上的 vCard 解析为 MySQL 数据库

我有一个客户在单独的页面上使用单独的 vCard。这些被粘贴到 wordpress 文本字段中。(这不是维护人员列表的最有效方式,但事后我不会进行编辑。)我的任务是编写一些东西来解析 vCard 中的所有地址并将信息转储到中央数据库中。这将允许所有不同的页面成为充满来自谷歌的 lat 和 lng 坐标的地址,并显示一个带有大量引脚的可爱首页。
此页面将显示站点其余页面中的所有电子名片。

哦,这是网站上的一个 vcard 示例,经过清理,实际上它会被许多可疑的 HTML 代码包围:

现在,每个页面都有其中一个,并且爬取整个站点并将它们收集到一个数组中有点超出我的范围。我可以使用 PHP 和 mySQL 将它们转储到数据库中。
欢迎任何和所有建议!
编辑:不确定这有多重要,但我正在从不同的服务器中提取数据。

0 投票
1 回答
180 浏览

php - 使用 TinyMCE 发布内容时,正则表达式使用 PHP 在标记中移动图像

我正在使用 TinyMCE 将内容发布到我的网站。我有一个问题,即使我将光标放在内容的末尾,我也只能在另一个元素(例如段落)中插入图像。

因此,当我发布内容时,我目前最终会得到如下标记:

我注意到 WordPress 和 TinyMCE 示例站点都以上述方式插入图像。

我一直无法找到解决方案来解决如何在 TinyMCE 中将图像插入到任何其他元素之外,因此下一步是尝试更改内容服务器端,以便在发布内容时能够更正将标记保存到我的数据库之前,这样我最终会得到:

有没有人知道我需要做什么才能实现这一目标。我知道正则表达式应该可以工作,但我不确定什么或如何使用它来达到这种效果。更好的是,如果有人能解决 TinyMCE 问题,那就更好了。

我知道我显然可以使用 JS 来即时实现这个客户端,但这种解决方案并不理想。

非常感谢,

D

0 投票
4 回答
3522 浏览

php - 正则表达式 PHP,将所有链接与特定文本匹配

我正在寻找 PHP 中的正则表达式,它将锚点与特定文本匹配。例如,我想获得带有文本 mylink 的锚点,例如:

所以它应该匹配所有的锚,但前提是它们包含特定的文本所以它应该匹配这些字符串:

但不是这个:

因为这个不包含单词mylink。

这个也不应该匹配:"mylink is string"因为它不是锚。

有人有什么想法吗?

感谢花岗岩