在我调用 Tidy.parse 之后,某些字符会被破坏。两个例子是:'代替'和~代替~
我猜这些一定来自 Word 或类似的东西,但 tidy 处理得非常糟糕。具体来说,它将它们转换为变音符号的单独实体表示,然后在我的过程中稍后转换为无意义的垃圾。我敢肯定还有其他人,但这些是我迄今为止找到的。是否有任何已知的方法可以预先转换这些或将它们作为整洁的一部分忽略?
Tidy tidy = new Tidy();
tidy.setXHTML(true);
tidy.setForceOutput(true);
tidy.parse(inputStream, outputStream);