1

我正在尝试使用样板代码从 HTML 中获取文章的主要内容。

从这里下载了最新的 jars 。

我正在尝试使用以下代码:

String article = "";
try {
    article = ArticleExtractor.INSTANCE.getText(url);   
    System.out.println("Article ++++ >>" + article);    
} catch (BoilerpipeProcessingException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
}

但这会为每个 URL 返回一个空字符串。谁可以帮我这个事?

4

1 回答 1

2

您是否尝试过传递 HTML 本身而不是 url?或者您的 url 字符串的格式可能存在问题。

于 2016-10-10T07:18:31.107 回答