7

我一直在进行大量研究,以找出编写应用程序以从几乎任何 HTML 网页获取主要文章内容的最佳方法。我有一个使用 libxml2 解析 XML 的 C 程序,但我遇到了 Alchemy API,它似乎可以满足我的要求。

但是,它只有一个在线 API,我希望将应用程序保留在内部而不依赖任何外部调用。

那么有人有提示吗?我希望有一个离线替代方案可以完成 Alchemy API 可以做的事情(付费/非付费)。

我的替代方法可能是仅解析 HTML 并使用 NLP(自然语言处理)技术和其他方法来获取主要文章内容。它将使用的网站类型包括带有新闻部分或博客的网站。

4

2 回答 2

4

有一些开源工具可以执行类似的文章提取任务。 https://github.com/jiminoc/goose 由 Gravity.com 开源

它包含有关 wiki 的信息以及您可以查看的源代码。有几十个单元测试显示从各种文章中提取的文本。

于 2011-05-08T16:06:03.230 回答
0

AlchemyAPI 还提供了本地解决方案,因此您不必在线访问它。通常,我们拥有本地解决方案的客户如果有特殊的安全性或延迟要求,就会使用它。有关本地解决方案的更多信息,请访问:http ://www.alchemyapi.com/products/on-premise/

于 2013-08-08T15:10:36.603 回答