我有一组文档,分为好类和坏类。我希望能够预测新文档将属于哪个类别。我正在研究的一件事是找到最能定义每个类别的术语并在新文档中查找这些术语。
不久前,当我了解 TF-IDF 时,我正在使用 Lucene 术语向量进行 Mahout 聚类。在我看来,我正在寻找的是类似的东西,我会从一个类别中找到 TermFrequency,然后在另一个类别中应用这些术语的 InverseDocumentFrequency。
有谁知道找到在其中一个组中唯一定义文档而不是另一个组中唯一定义文档的术语的最佳方法?
我有一组文档,分为好类和坏类。我希望能够预测新文档将属于哪个类别。我正在研究的一件事是找到最能定义每个类别的术语并在新文档中查找这些术语。
不久前,当我了解 TF-IDF 时,我正在使用 Lucene 术语向量进行 Mahout 聚类。在我看来,我正在寻找的是类似的东西,我会从一个类别中找到 TermFrequency,然后在另一个类别中应用这些术语的 InverseDocumentFrequency。
有谁知道找到在其中一个组中唯一定义文档而不是另一个组中唯一定义文档的术语的最佳方法?