0

我将在 solr 上构建一个搜索引擎,并将 nutch 作为爬虫。我必须索引大约 1300 万份文档。我有 3 台服务器来完成这项工作:

  1. 4 核 Xeon 3Ghz,20Gb 内存,1.5Tb sata
  2. 2*4 核 Xeon 3Ghz,16Gb 内存,500Gb ide
  3. 2*4 核 Xeon 3Ghz,16Gb 内存,500Gb ide

我可以使用其中一台服务器作为主服务器进行爬网和索引,另外两台服务器作为从服务器进行搜索,或者我可以使用一台服务器进行搜索,另外两台用于使用两个分片进行索引。你能推荐什么架构?我应该使用分片,多少分片,以及我应该使用哪些服务器?

4

2 回答 2

1

我想两者都试试。阅读 HathiTrust 所做的事情。我会从一个主服务器和两个从服务器开始,这是最简单的方法。如果您只有 1300 万个文档,我猜负载将在索引/爬网方面......但 1300 万个文档只有每分钟约 300 页。我认为你的nutch crawler将成为瓶颈......

于 2010-08-10T20:08:27.560 回答
0

我倾向于使用两台服务器进行搜索,一台服务器进行索引。

作为一般规则,您希望以牺牲索引性能为代价保持搜索尽可能快。此外,两个搜索服务器为您提供了一些自然冗余。

当它实际上没有进行索引时,我也会使用第三台服务器进行搜索。(1300 万个文档并不是一个庞大的索引,与重新索引它的频率相比,索引它应该不会花费很长时间)

于 2010-10-12T05:16:27.750 回答