0

Boilerpipe 允许从网页中提取文章的文本,清理所有的 HTML 混乱。但是,我怎样才能提取文章的标题?有一种方法可以只使用页面的标题,但它有时不正确并且包含不需要的词(例如“标题 - 站点名称”)。

<h1>另一个想法是在and之间查找文本</h1>,但我仍然认为我会提出更多解决方案。

4

1 回答 1

0

你在写一个网络爬虫吗?我认为困难在于您需要知道标题在整个 html 中的位置。对于大多数网站来说,它们都有一个独特的 html 编写模式,应该在编写爬虫之前就知道它。

于 2016-10-21T09:33:51.917 回答