3


我需要构建该矩阵,但我找不到为每个单元格计算归一化 tf-idf 的方法。我将执行的归一化是余弦归一化,即除以 tf-idf(使用 DefaultSimilarity计算)每 1/sqrt(列中的 sumOfSquaredtf-idf)。

有谁知道执行此操作的方法?
提前感谢
安东尼奥

4

1 回答 1

1

Sujit Pal 的博客中描述了一种不使用 Lucene的方法。或者,您可以构建一个每个字段具有术语向量的 Lucene 索引,迭代术语以获取 idf,然后迭代术语的文档以获取 tf.

于 2011-02-05T07:02:00.307 回答