filesystems - 如何使用 http 协议使用 Nutch-1.0 抓取互联网上提供的 pdf 文件

Question

我想知道如何使用 http 协议使用 Nutch-1.0 抓取互联网上提供的 pdf 文件

我可以使用 file:// 协议而不是 http 协议在本地文件系统上执行此操作

score 0 · Accepted Answer

在 nutch-site.xml 文件中添加此属性，然后您将抓取 pdf 文件

<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</description>
</property>

filesystems - 如何使用 http 协议使用 Nutch-1.0 抓取互联网上提供的 pdf 文件

1 回答 1

Related

Reference