0

我正在html使用 HtmlUnit 进行抓取,但它html的格式错误,几乎没有标签未关闭,因此 HtmlUnit 给出了错误的结果。所以我需要在将其传递给 HtmlUnit 之前对其进行清理。

我怎样才能做到这一点。

一个简短的代码片段或教程将不胜感激

4

1 回答 1

0

我相信您可以通过实现自己的WebConnectionWrapper来做到这一点。然后,您必须找到一些可以正确修复此问题的 HTML 库(如果可能)。然后,您应该做的就是确保包装器将内容发送到库,以便当它到达 HTMLUnit 的解析器时,HTML 内容已经被处理。

于 2014-01-22T14:47:26.740 回答