问题标签 [jtidy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
429 浏览

java - 在 Java 中评估 XPath 表达式时出现异常

我正在尝试使用 Java 学习 Xpath 表达式的用法。我正在使用 Jtidy 将 HTML 页面转换为 XHTML,以便我可以使用 XPath 表达式轻松解析它。我有以下代码:

它适用于大多数 URL,但这个:

https://twitter.com/?lang=fr

因为它,我得到了这个例外:

javax.xml.transform.TransformerException:索引 -1 越界.....

下面是我得到的堆栈跟踪的一部分:

我不确定问题是出在网站转换后的 xhtml 还是其他问题上。谁能说出代码中有什么问题?任何编辑都会有所帮助。

0 投票
0 回答
70 浏览

java - 编号列表项的 JTidy 问题

使用IText. _ <br/>附加标签时,项目列表的序列号不会加一。考虑以下示例:

对于字符串 withBrTag,输出为:

注意编号 - 2, 4, 6!每个<br/>标签在执行时被解析为<li>节点tidy.parseDOM(inputStream, null)。因此编号发生变化。TIDY以错误的方式解析html内容,导致编号问题。

但是如果我使用String withoutBrTag生成的输出是预期的。

谁能解释为什么<br/>标签被视为</li>标签以及如何解决?

注意 1:不仅对于<br/>标签编号更改,而且对于任何html标签,如 -<p>, <i>, <hr/>标签。这意味着如果在标签之前或之后添加任何<li>标签,它将影响编号。

注 2:使用 itextpdf-2.0.1。

0 投票
1 回答
307 浏览

java - 将 word xml 转换为 html 并将 html 转换为 word xml(使用 Java)

我尝试了一些方法(Jtidy)通过 JAVA 将 word XML 转换为 HTML 并将 HTML 转换为 word XML。但在最终字 XML 文件中缺少一些字属性。

注意:我们使用基于模式的 XML 标记。

有没有更好的方法将 Word XML 转换为 HTML?(反之亦然)或者有没有更好的替代方法来使用我们的 XML 模式中的单词?

0 投票
1 回答
32 浏览

jtidy - JTidy 没有正确处理某些字符

在我调用 Tidy.parse 之后,某些字符会被破坏。两个例子是:'代替'和~代替~

我猜这些一定来自 Word 或类似的东西,但 tidy 处理得非常糟糕。具体来说,它将它们转换为变音符号的单独实体表示,然后在我的过程中稍后转换为无意义的垃圾。我敢肯定还有其他人,但这些是我迄今为止找到的。是否有任何已知的方法可以预先转换这些或将它们作为整洁的一部分忽略?

0 投票
2 回答
158 浏览

java - Java:从 XML 中的文本(不是标签)中删除 < 和 >

我很难转义要由 Java 处理的 xml。我正在使用 JTidy 来转义不需要的字符,但很难从值中删除“<”和“>”,例如<tag> capacity < 1000 </tag>

我正在使用下面的代码来转义输入

0 投票
1 回答
59 浏览

java - 字符串而不是文档中的 JTidy 输出?

我正在尝试使用 JTidy 将 HTML 字符串转换为 XHTML 字符串,然后使用 XMLWorkerHelper 进行解析。请问如何从 Tidy 中获取 String 而不是 Document 的输出?

我的代码是:

0 投票
0 回答
114 浏览

java - org.xml.sax 包可以从多个模块访问: - 需要保持 maven 依赖

我在使用 Eclipse 和 maven 的项目中遇到以下错误。

我之前将编译器版本设置为 1.8,但我希望它是版本 11。我发现了一堆与此相关 问题,但我仍然无法解决问题。

通过在我的 pom.xml 中注释掉不同的依赖项,我能够确定 jtidy 是罪魁祸首。我尝试向该依赖项添加一些排除项,如下所示:

但这并没有解决问题。通过在 maven 中注释掉整个 jtidy 依赖项并将 jtidy jar 添加到 eclipse 中的类路径中,我能够消除错误。这消除了错误,我能够在 eclipse 中成功运行代码。但是当我使用 maven 构建项目时,我得到了 jtidy 的 noclassdef 错误。我尝试在运行 jar 时将 jtidy jar 添加到命令行上的类路径中,但这仍然不起作用。

在这个项目中我真的需要 jtidy,因为它可以修复格式错误的 html 节点并使其格式良好。有没有办法设置一个模块信息文件来让它工作?(我需要阅读一般的模块)

谢谢!