java - 从 HTML 中提取文章的标题（使用 Boilerpipe）

翻译自：https://stackoverflow.com/questions/40171797 2016-10-21T08:27:09.347

236 次

0

Boilerpipe 允许从网页中提取文章的文本，清理所有的 HTML 混乱。但是，我怎样才能提取文章的标题？有一种方法可以只使用页面的标题，但它有时不正确并且包含不需要的词（例如“标题 - 站点名称”）。

<h1>另一个想法是在and之间查找文本</h1>，但我仍然认为我会提出更多解决方案。

1 回答 1

0

你在写一个网络爬虫吗？我认为困难在于您需要知道标题在整个 html 中的位置。对于大多数网站来说，它们都有一个独特的 html 编写模式，应该在编写爬虫之前就知道它。

于 2016-10-21T09:33:51.917 回答