Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Nutch 1.10 为我的组织抓取网站。我使用具有 16Gb RAM 的系统来执行此爬取。截至目前,我的 nutch 文件在爬取数据时仅使用 3-4Gb 的 RAM,完成它需要将近 10 个小时。有什么方法可以让我将 nutch 配置为使用超过 12Gb 的 RAM 来完成相同的任务?欢迎所有建议!
假设脚本 bin/nutch 或 bin/crawl 用于本地模式(无 Hadoop 集群)爬取:环境变量NUTCH_HEAPSIZE定义堆大小(MB)。
NUTCH_HEAPSIZE