Apache Nutch 1.2 不索引整个网站,只索引子文件夹。我的索引页面在我网站的大多数区域/子文件夹中提供链接。例如东西,学生,研究......但nutch只在一个特定的文件夹中爬行 - 在这种情况下是“学生”。似乎没有遵循其他目录中的链接。
crawl-urlfilter.txt: +^http://www5.my-domain.de/
URLs 文件夹中的 seed.txt: http ://www5.my-domain.de/
开始 nutch (windows/linux 都使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000
测试了 depth(5-23) 和 topN(100-1000000) 的不同变体。在 seed.txt 中提供更多链接根本没有帮助,仍然没有关注在注入页面中找到的链接。
有趣的是,抓取 gnu.org 非常完美。没有 robots.txt 或阻止在我的网站中使用元标记。
有任何想法吗?