我一直在进行大量研究,以找出编写应用程序以从几乎任何 HTML 网页获取主要文章内容的最佳方法。我有一个使用 libxml2 解析 XML 的 C 程序,但我遇到了 Alchemy API,它似乎可以满足我的要求。
但是,它只有一个在线 API,我希望将应用程序保留在内部而不依赖任何外部调用。
那么有人有提示吗?我希望有一个离线替代方案可以完成 Alchemy API 可以做的事情(付费/非付费)。
我的替代方法可能是仅解析 HTML 并使用 NLP(自然语言处理)技术和其他方法来获取主要文章内容。它将使用的网站类型包括带有新闻部分或博客的网站。