solr - Apache Nutch 不会索引整个网站，只会索引子文件夹

Question

Apache Nutch 1.2 不索引整个网站，只索引子文件夹。我的索引页面在我网站的大多数区域/子文件夹中提供链接。例如东西，学生，研究......但nutch只在一个特定的文件夹中爬行 - 在这种情况下是“学生”。似乎没有遵循其他目录中的链接。

crawl-urlfilter.txt: +^http://www5.my-domain.de/

URLs 文件夹中的 seed.txt： http ://www5.my-domain.de/

开始 nutch (windows/linux 都使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000

测试了 depth(5-23) 和 topN(100-1000000) 的不同变体。在 seed.txt 中提供更多链接根本没有帮助，仍然没有关注在注入页面中找到的链接。

有趣的是，抓取 gnu.org 非常完美。没有 robots.txt 或阻止在我的网站中使用元标记。

有任何想法吗？

score 2 · Accepted Answer

在尝试从索引页面爬取所有链接时，我发现 nutch 仅限于 100 个大约 1000 个的链接。阻碍我的设置是：

db.max.outlinks.per.page

将此设置为 2000 允许 nutch 一次性索引所有这些。

score 1 · Accepted Answer

检查您是否有域内链接限制（在 nutch-site.xml 中属性为 false）。还可以查看其他属性，例如每页的最大内部额外链接和 http 大小。有时它们在爬行过程中会产生错误的结果。

再见！

2 回答 2