1

我是 Nutch 的新手,但我知道 Nutch 使用 Lucene 进行索引,它只理解文本格式。

Nutch 有许多插件用于抓取特定格式的文档。

我的疑问是:Nutch的外挂系统究竟是怎么回事?

我看到了nutch的 Team wiki 页面

我想要一些信息,比如 Nutch 如何与 Lucene 一起工作。

4

1 回答 1

1

Lucene 所做的只是提供一种将“文档”添加到结构化索引中并针对该索引执行查询的方法。

Nutch 爬虫(我假设这就是您所说的 nutch 的意思)只是提供了一种简单的方法来获取非结构化数据(即网站)以推送到索引中。就像您可以使用 Solr 轻松将 xml 数据推送到 lucene 索引中一样。

Nutch 插件只是提供了一个钩子,你可以放置客户逻辑。例如,“ parse-pdf ”可以将二进制 PDF 文件转换为这些“lucene 文档”之一。基本上它所做的只是使用可以读取 PDF 文档 ( pdfbox ) 的 API 来提取文本(这类似于“parse-html”所做的,因为 html 有很多不是文本的部分,例如所有 html 标签)。

因此,关于您对二进制格式的关注,它并不难解析,只是很难得到有用的东西。例如我们可以编写一个“parse-image”插件,它可以提取关于图像的大量信息(即名称、格式、大小),只是解析图片中的“人脸”或“狗”很困难。

于 2010-11-11T01:03:29.170 回答