问题标签 [jtidy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - 使用 sax 和 webcrawler 的站点地图
大家好,这是我在这里的第一个问题,我不是程序员。
我想生成一个站点地图。我正在使用 webcrawler (crawler.dev.java.net) 抓取一个网站。有没有办法对我得到的数据使用 sax 解析器?
我还使用了 jtidy,并将主页 html 数据转换为 xml 文件。
我很困惑有这么多的 sax 解析器,不知道它们之间的区别以及选择哪一个。
我想访问 html 标签的属性,但我不能用 webcrawler 做到这一点,或者我不知道该怎么做
org.xml.sax 和所有其他包有什么区别?
java - jTidy 和 TagSoup 文档
我正在寻找 TagSoup 和 jTidy 库的文档(如果可能的话,官方文档)。
我想使用这个库来操作 html“tagsoup”文件,这些文件包括 xml 标记,其中不同的命名空间混合在 html(html、xhtml 或 html5)标记之间。
我已经测试过 HTMLCleaner、NekoHTML 和 Jericho,但除了清除文件的最简单示例之外,我没有找到 jTidy 和 TagSoup 的文档。
我需要有关操作内容、替换标签、提取信息等的文档...
谢谢
注意:测试所有选项后,我使用了StAX / Woodstox:
java - JTidy 保留 CSS 规则
寻找一种获取一些html的方法,例如:
并通过 JTidy 运行它,并将 CSS 规则保留在解析器的输出中。
标签在最终输出中消失了。
xhtml - JTidy 和 XHTML 1.1:有可能吗?
我需要将 HTML 转换为 XHTML 1.1。
我是在 Java 程序中做的,所以我决定使用 JTidy。但是如果你告诉 JTidy 用 XHTML 转换输出,你得到的是 XHTML 1.0,而不是 XHTML 1.1。我在 Google 上找到了一些关于 2003 年及更早版本的 Tidy 和 XHTML 1.1 的帖子,但我找不到任何带有 JTidy 的 XHTML 1.1 选项。
有任何想法吗?
非常感谢。
java - 如何从java中的任何网页获取标题文本
我正在使用 java 从网页中获取标题文本。
我使用标签名称从网页中获取图像,如下所示:
它正在工作,但我想使用与上面相同的代码从网页(www.yahoo.com)获取标题标签。我提到了 getElementsByTagName("title"); 但它不工作。请帮助我,如何使用上面的 jtidy 解析器来做到这一点。
java - XPath 如何从 html 文档中检索表格单元格的值
我有一个 html 文档,文档内的某处位于表格下方,我可以获取表格行和 java DOM 对象。我不清楚的是,当值是字符串以及二进制资源时,如何提取表格单元格的值?
我正在使用如下代码:
和循环喜欢:
但我没有看到表中的值。
java - 如何通过在属性周围加上引号来清理用于 Java 解析的 XML 文件
我有一系列看起来像这样的 xml 文件:
我正在尝试使用标准 DOM 方式解析 xml,但由于属性值P
不在引号中,Java 会抱怨。
我尝试使用 JTidy 来清理它,但是因为我的 xml 不是 HTML,Tidy 会抛出错误,抱怨它无法识别标签<ROOT>
等<F>
。
那么,还有其他方法可以做到这一点吗?或者,我想我可以使用正则表达式,因为唯一没有引号的属性出现在<F>
标签中。有什么想法吗?
提前致谢
java - 如何使用java从给定的url中获取基本url
我正在尝试使用 java 获取基本 URL。我在我的代码中使用了 jtidy 解析器来获取标题。我正在使用 jtidy 正确获取标题,但我没有从给定的 URL 获取基本 URL。
我有一些 URL 作为输入:
我想从第一个字符串中获取"http://staff.unak.is/andy/GameProgramming0910/"
基本 URL,从第二个字符串中获取"http://www.complex.com/"
基本 URL。
我正在使用代码:
我得到了titletext
,但请让我知道如何从上面给定的 URL 获取基本 URL?
java - 如何在java中从网页获取时设置图像大小
嗨,我正在使用 Java 中的 Jtidy 从网页中获取图像。这是我的代码:
它工作正常,但我得到了一些大图像。我想设置高度和宽度 16*16。
请帮助我:如何在获取图像时设置大小。