1

我必须从一些文本文件创建一个数据集,将它们写为特征向量。

像这样的东西:

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

向量的每个位置代表一个词,分数由 TF-IDF 之类的东西给出。

你知道一些图书馆/工具/什么吗?(java更好)

4

3 回答 3

2

几天后,我找到了“完美的工具”:Word Vector Tool。 http://sourceforge.net/projects/wvtool/

于 2010-06-14T07:27:11.007 回答
0

木槌。包括TF-IDF、POS、分类。

于 2010-05-27T13:31:56.637 回答
0

当然有很多例如http://en.wikipedia.org/wiki/Lucene

然而

我建议您从头开始编写一个基本的 IR 系统。深入了解始终是一次很棒的学习经历。

于 2010-05-27T13:34:01.567 回答