1

Apache Nutch 1.2 不索引整个网站,只索引子文件夹。我的索引页面在我网站的大多数区域/子文件夹中提供链接。例如东西,学生,研究......但nutch只在一个特定的文件夹中爬行 - 在这种情况下是“学生”。似乎没有遵循其他目录中的链接。

crawl-urlfilter.txt: +^http://www5.my-domain.de/

URLs 文件夹中的 seed.txt: http ://www5.my-domain.de/

开始 nutch (windows/linux 都使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000

测试了 depth(5-23) 和 topN(100-1000000) 的不同变体。在 seed.txt 中提供更多链接根本没有帮助,仍然没有关注在注入页面中找到的链接。

有趣的是,抓取 gnu.org 非常完美。没有 robots.txt 或阻止在我的网站中使用元标记。

有任何想法吗?

4

2 回答 2

2

在尝试从索引页面爬取所有链接时,我发现 nutch 仅限于 100 个大约 1000 个的链接。阻碍我的设置是:

db.max.outlinks.per.page

将此设置为 2000 允许 nutch 一次性索引所有这些。

于 2013-07-02T18:34:31.057 回答
1

检查您是否有域内链接限制(在 nutch-site.xml 中属性为 false)。还可以查看其他属性,例如每页的最大内部额外链接和 http 大小。有时它们在爬行过程中会产生错误的结果。

再见!

于 2011-04-17T13:57:16.710 回答