3

Lucene 具有强大的增量索引能力。从头开始开发 IR 系统通常会很痛苦。我想知道我是否可以使用低级 Lucene API 将其仅用作倒排索引,即存储倒排列表、位置信息、词频、idfs、字段存储等...

底线是我想实现我自己的权重和文档评分。我知道Similarity类,但它没有给我想要的灵活性。

4

1 回答 1

1

您当然可以创建自己的查询类和自己的记分器等。您可能遇到的唯一问题是您是否需要全局数据。(例如,在 tf/idf 中,您需要知道术语频率和逆文档频率。)如果您的评分算法需要其他一些跨文档或跨术语元数据,您可能会遇到麻烦,因为没有我知道存储它不是一个好方法。

但基本上,只要您的算法是模糊的 tf/idf 或仅适用于每个文档,我认为您应该没问题。

于 2011-03-10T20:03:24.923 回答