lucene - Nutch的插件系统是如何工作的？

Question

我是 Nutch 的新手，但我知道 Nutch 使用 Lucene 进行索引，它只理解文本格式。

Nutch 有许多插件用于抓取特定格式的文档。

我的疑问是：Nutch的外挂系统究竟是怎么回事？

我看到了nutch的 Team wiki 页面

我想要一些信息，比如 Nutch 如何与 Lucene 一起工作。

score 1 · Accepted Answer

Lucene 所做的只是提供一种将“文档”添加到结构化索引中并针对该索引执行查询的方法。

Nutch 爬虫（我假设这就是您所说的 nutch 的意思）只是提供了一种简单的方法来获取非结构化数据（即网站）以推送到索引中。就像您可以使用 Solr 轻松将 xml 数据推送到 lucene 索引中一样。

Nutch 插件只是提供了一个钩子，你可以放置客户逻辑。例如，“ parse-pdf ”可以将二进制 PDF 文件转换为这些“lucene 文档”之一。基本上它所做的只是使用可以读取 PDF 文档 ( pdfbox ) 的 API 来提取文本（这类似于“parse-html”所做的，因为 html 有很多不是文本的部分，例如所有 html 标签）。

因此，关于您对二进制格式的关注，它并不难解析，只是很难得到有用的东西。例如我们可以编写一个“parse-image”插件，它可以提取关于图像的大量信息（即名称、格式、大小），只是解析图片中的“人脸”或“狗”很困难。

lucene - Nutch的插件系统是如何工作的？

1 回答 1

Related

Reference