问题标签 [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scrapy - 速度最快的网络图爬虫?
在过去的一个月里,我一直在使用 Scrapy 进行我已经开始的网络爬虫项目。
该项目涉及从主页可访问的单个域名中提取所有网页的完整文档内容。使用 Scrapy 编写这个非常容易,但是它运行得太慢了。2-3天我只能拉下10万页。
我已经意识到我最初的想法是 Scrapy 不适合这种类型的爬行,这正在暴露自己。
我已经开始将目光集中在 Nutch 和Methabot上,以期获得更好的性能。在抓取过程中我需要存储的唯一数据是网页的全部内容,最好是页面上的所有链接(但即使这样也可以在后处理中完成)。
我正在寻找一个快速且采用许多并行请求的爬虫。
search - 用于 solr 搜索引擎的具有 3 个服务器的架构
我将在 solr 上构建一个搜索引擎,并将 nutch 作为爬虫。我必须索引大约 1300 万份文档。我有 3 台服务器来完成这项工作:
- 4 核 Xeon 3Ghz,20Gb 内存,1.5Tb sata
- 2*4 核 Xeon 3Ghz,16Gb 内存,500Gb ide
- 2*4 核 Xeon 3Ghz,16Gb 内存,500Gb ide
我可以使用其中一台服务器作为主服务器进行爬网和索引,另外两台服务器作为从服务器进行搜索,或者我可以使用一台服务器进行搜索,另外两台用于使用两个分片进行索引。你能推荐什么架构?我应该使用分片,多少分片,以及我应该使用哪些服务器?
solr - 使用 nutch+solr 识别文档中的字符串?
我正在寻找一种搜索解决方案,该解决方案将识别字符串(公司名称)并将这些字符串用于 Solr 中的搜索和构面。
我是 Nutch 和 Solr 的新手,所以我想知道这是否最好在 Nutch 或 Solr 中完成。一种解决方案是在 Nutch 中生成一个解析器,用于识别有问题的字符串,然后索引公司名称,然后映射到 Solr 值。我不确定如何,但我想这也可以直接从文本中在 Solr 中完成?
在 Nutch 或 Solr 中进行此字符串识别是否有意义,Solr 或 Nutch 中是否有一些功能可以帮助我?
谢谢。
nutch - Nutch : 在插件中获取当前的爬行深度
我想为 nutch 编写自己的 HTML 解析器插件。我通过生成仅落在特定 xpath 中的外链来进行集中爬行。在我的用例中,我想根据当前的爬网深度从 html 页面中获取不同的数据。所以我需要知道我正在解析的每个内容的 HtmlParser 插件的当前深度。
Nutch可以吗?我看到 CrawlDatum 没有 crawl_depth 信息。我正在考虑在另一个数据结构中使用信息图。有人有更好的主意吗?
谢谢
java - MapReduce Nutch 教程
有人能给我指点解释如何将 mapreduce 程序写入 Nutch 的教程吗?
谢谢你。
solr - 将 nutch 模式映射到 solr 的 solrindex 方式
我们有几个自定义的 nutch 字段,爬虫会拾取和索引。通过 solrindex(使用映射文件)将其传输到 solr 可以正常工作。日志显示一切正常,但是 solr 环境中的索引并未反映这一点。任何帮助都感激不尽,
谢谢,阿肖克
solr - 在 apach solr (trunk) 中集成 apache nutch (release 1.2) 的问题 - 得到 solr 异常
我已经配置了(nutch)并solrindex-mapping.xml
配置了我的solr 。两者都在单次运行中运行良好,但如果我使用我得到一个异常:schema.xml
solrconfig.xml
bin/nutch solrindex ...
我已经id
在所有配置文件中配置了。在solrindex-mapping.xml
它映射url
到solrid
和 at 时schema.xml
,我也配置了 id。我不知道怎么了。我将一些日志输出添加到org.apache.nutch.indexer.solr.SolrWriter.java
. 当读取字段添加到 SolrInputDocument 时,我在这些行添加了一个 loginfo。编译运行后的结果是:
您只会看到 3 个读取字段 O_o。有谁知道我的配置是否有问题?我需要跑得很快,因为我目前正在写我的学士论文:/(关于本地网络异构数据源的信息集成)
最好的问候
马塞尔=)
日志的其余部分:
java - 找不到段*文件
我需要访问一个 lucene 索引(通过使用 Nutch 抓取多个网页创建),但它给出了上面显示的错误:
我用谷歌搜索,但给出的原因与要求不符。显示文件(路径)的事实可能意味着目录不为空。
谢谢
java - nutch 爬虫相对 urls 问题
有没有人遇到过标准 html 解析器插件处理相对 url 的方式的问题?有一个网站 - http://xxxx/asp/list_books.asp?id_f=11327 浏览链接时,其 href 设置为 '?id_r=442&id=41&order=' 浏览器自然会将您带到 http:// xxxx/asp/list_books.asp?id_r=442&id=41&order=
然而,当从页面解析外链时,最终链接为 http://xxxx/asp/?id_r=442&id=41&order=
这当然是坏的。那么为什么list_books.asp 不见了呢?
full-text-search - nutch crawler - 如何设置每个主机的最大内链接数
如何设置每个主机索引的最大页数?我不想索引所有百万页面的网站,我只想索引前 100000 个找到的页面。