0

我尝试解析以下 HTML 源代码:

<a href="./">Home</a>&nbsp;&nbsp;&nbsp;
<a href="http://gouessej.wordpress.com/tag/tuer/">Blog</a>&nbsp;&nbsp;&nbsp;

我实现了接口org.jsoup.select.NodeVisitor。但是,它似乎跳过了 和 之间的</a>内容<a。禁用漂亮的打印并不能解决我的问题。

您可以运行第一个 JUnit 测试来重现此错误: https ://github.com/gouessej/HtmlFlow/blob/patch-1/src/test/java/htmlflow/flowifier/test/TestFlowifier.java 它转换 HTML 源我的主页的代码转换为 Java 源代码,它将这个 Java 源代码转换回 HTML,并将生成的 HTML 源代码与原始源代码进行比较。

PS:实际上TextNode.getWholeText()返回\n而不是&nbsp;&nbsp;&nbsp;\n.

4

1 回答 1

1

TextNode.getWholeText()返回一些未转义的文本,我只需要通过调用Entities.escape(TextNode.getWholeText()).

于 2019-11-06T21:24:02.727 回答