1

我是一名计算机科学专业的学生,​​在网络爬虫和构建搜索引擎方面我有点缺乏经验。目前,我正在使用最新版本的 Open Search Server 并爬取数千个域。使用内置的搜索引擎创建工具时,我会得到与我的查询相关的搜索结果,但它们是使用文档的矢量模型而不是 Pagerank 算法或类似算法进行排名的。因此,排名靠前的结果只是微不足道的帮助,而来自 Wikipedia 等网站的更高质量的结果则隐藏在第二页上。

有没有办法在 Open Search Server 中运行粗略的 Pagerank 算法?如果没有,是否有类似的易于使用的开源软件包可以做到这一点?

谢谢您的帮助!这是我第一次做这样的事情,所以非常感谢任何反馈。

4

2 回答 2

1

我不熟悉开放式搜索服务器,但我知道大多数从事搜索引擎工作的学生使用LuceneIndri。阅读有关文档搜索新方法的论文,您会发现其中大多数都使用这两种 API 中的一种。Lucene 在定义不同等级算法方面比 indri 更灵活。我建议看看这两个,看看它们是否适合您的目的。

于 2015-02-18T19:12:34.343 回答
0

正如您所提到的,OpenSearchServer 的网络爬网模板使用基于向量空间模型的具有相关性的搜索查询。但是如果你使用最后一个版本(v1.5.11),它也会混合反向链接的数量。

您可以根据反向链接更改分数的权重,默认设置为 1。

OpenSearchServer 评分面板

我们目前正在努力提供对相关性的更多控制。这将在 OpenSearchServer 的未来版本中可见。

于 2015-03-12T10:01:48.777 回答