java - 如何使用样板从 HTML 中获取文章的主要内容？

Question

我正在尝试使用样板代码从 HTML 中获取文章的主要内容。

从这里下载了最新的 jars 。

我正在尝试使用以下代码：

String article = "";
try {
    article = ArticleExtractor.INSTANCE.getText(url);   
    System.out.println("Article ++++ >>" + article);    
} catch (BoilerpipeProcessingException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
}

但这会为每个 URL 返回一个空字符串。谁可以帮我这个事？

score 2 · Accepted Answer

您是否尝试过传递 HTML 本身而不是 url？或者您的 url 字符串的格式可能存在问题。

java - 如何使用样板从 HTML 中获取文章的主要内容？

1 回答 1

Related

Reference