我需要构建该矩阵,但我找不到为每个单元格计算归一化 tf-idf 的方法。我将执行的归一化是余弦归一化,即除以 tf-idf(使用 DefaultSimilarity计算)每 1/sqrt(列中的 sumOfSquaredtf-idf)。
有谁知道执行此操作的方法?
提前感谢
安东尼奥
我需要构建该矩阵,但我找不到为每个单元格计算归一化 tf-idf 的方法。我将执行的归一化是余弦归一化,即除以 tf-idf(使用 DefaultSimilarity计算)每 1/sqrt(列中的 sumOfSquaredtf-idf)。
有谁知道执行此操作的方法?
提前感谢
安东尼奥
Sujit Pal 的博客中描述了一种不使用 Lucene的方法。或者,您可以构建一个每个字段具有术语向量的 Lucene 索引,迭代术语以获取 idf,然后迭代术语的文档以获取 tf.