我正在html
使用 HtmlUnit 进行抓取,但它html
的格式错误,几乎没有标签未关闭,因此 HtmlUnit 给出了错误的结果。所以我需要在将其传递给 HtmlUnit 之前对其进行清理。
我怎样才能做到这一点。
一个简短的代码片段或教程将不胜感激
我正在html
使用 HtmlUnit 进行抓取,但它html
的格式错误,几乎没有标签未关闭,因此 HtmlUnit 给出了错误的结果。所以我需要在将其传递给 HtmlUnit 之前对其进行清理。
我怎样才能做到这一点。
一个简短的代码片段或教程将不胜感激
我相信您可以通过实现自己的WebConnectionWrapper来做到这一点。然后,您必须找到一些可以正确修复此问题的 HTML 库(如果可能)。然后,您应该做的就是确保包装器将内容发送到库,以便当它到达 HTMLUnit 的解析器时,HTML 内容已经被处理。