search - 用于 solr 搜索引擎的具有 3 个服务器的架构

Question

我将在 solr 上构建一个搜索引擎，并将 nutch 作为爬虫。我必须索引大约 1300 万份文档。我有 3 台服务器来完成这项工作：

我可以使用其中一台服务器作为主服务器进行爬网和索引，另外两台服务器作为从服务器进行搜索，或者我可以使用一台服务器进行搜索，另外两台用于使用两个分片进行索引。你能推荐什么架构？我应该使用分片，多少分片，以及我应该使用哪些服务器？

score 1 · Accepted Answer

我想两者都试试。阅读 HathiTrust 所做的事情。我会从一个主服务器和两个从服务器开始，这是最简单的方法。如果您只有 1300 万个文档，我猜负载将在索引/爬网方面......但 1300 万个文档只有每分钟约 300 页。我认为你的nutch crawler将成为瓶颈......

score 0 · Accepted Answer

我倾向于使用两台服务器进行搜索，一台服务器进行索引。

作为一般规则，您希望以牺牲索引性能为代价保持搜索尽可能快。此外，两个搜索服务器为您提供了一些自然冗余。

当它实际上没有进行索引时，我也会使用第三台服务器进行搜索。（1300 万个文档并不是一个庞大的索引，与重新索引它的频率相比，索引它应该不会花费很长时间）

2 回答 2