4

我计算了 TFIdf(词频,逆文档频率),我发现在这一步之后,有必要使用 LSI、卡方检验等方法来降低我的矩阵的维数......,

我不知道如何在 Java 中实现卡方检验以降低矩阵 TFIDF 的维数,如果有一些库可以执行此操作或教程中解释了我如何执行此操作,请告诉我

4

2 回答 2

5

为 LSA、LDA 使用 gensims 库。它实际上可以对任何大型数据集执行 LSA。它不会一次将整个语料库加载到内存中,而是进行惰性读取。

于 2011-05-28T09:30:08.010 回答
1

我认为您不想做卡方;这不是一种降维技术。

您要做的是 SVD,或奇异值分解。这就是 LSI/LSA 中用于降维的技术。

Wikipedia 建议在 Java 中为 LSA 使用一个名为“S-Space Pacakage”的库。我自己没有用过,但你可能想研究一下。

http://code.google.com/p/airhead-research/

于 2011-05-29T05:41:17.367 回答