Boilerpipe 允许从网页中提取文章的文本,清理所有的 HTML 混乱。但是,我怎样才能提取文章的标题?有一种方法可以只使用页面的标题,但它有时不正确并且包含不需要的词(例如“标题 - 站点名称”)。
<h1>
另一个想法是在and之间查找文本</h1>
,但我仍然认为我会提出更多解决方案。
Boilerpipe 允许从网页中提取文章的文本,清理所有的 HTML 混乱。但是,我怎样才能提取文章的标题?有一种方法可以只使用页面的标题,但它有时不正确并且包含不需要的词(例如“标题 - 站点名称”)。
<h1>
另一个想法是在and之间查找文本</h1>
,但我仍然认为我会提出更多解决方案。