我设置 Nutch 的 db.fetch.interval.default 为 60000,这样我就可以每天爬行。如果我不这样做,它甚至不会在我第二天抓取时查看我的网站。但是当我第二天抓取时,它昨天获取的每个页面都会使用 200 响应代码获取,这表明它没有使用“If-Modified-Since”中的前一天的日期。它不应该跳过获取未更改的页面吗?有没有办法让它做到这一点?我注意到 Fetcher.java 中有一个 ProtocolStatus.NOT_MODIFIED,所以我认为它应该能够做到这一点,不是吗?
顺便说一句,这是从当前主干的 conf/nutch-default.xml 剪切和粘贴的:
<!-- web db properties -->
<property>
<name>db.default.fetch.interval</name>
<value>30</value>
<description>(DEPRECATED) The default number of days between re-fetches of a page.
</description>
</property>
<property>
<name>db.fetch.interval.default</name>
<value>2592000</value>
<description>The default number of seconds between re-fetches of a page (30 days).
</description>
</property>