lucene - 使用 Lucene / Mahout 在预定义的文档组中查找定义术语

Question

我有一组文档，分为好类和坏类。我希望能够预测新文档将属于哪个类别。我正在研究的一件事是找到最能定义每个类别的术语并在新文档中查找这些术语。

不久前，当我了解 TF-IDF 时，我正在使用 Lucene 术语向量进行 Mahout 聚类。在我看来，我正在寻找的是类似的东西，我会从一个类别中找到 TermFrequency，然后在另一个类别中应用这些术语的 InverseDocumentFrequency。

有谁知道找到在其中一个组中唯一定义文档而不是另一个组中唯一定义文档的术语的最佳方法？

score 0 · Accepted Answer

我的建议是使用 Mahout 的贝叶斯分类器。您将文档标记为“好”或“坏”，然后 Mahout 将能够预测未经训练的文档的标签。维基百科有更多关于贝叶斯分类器的信息。

Lucene 数据可用作 mahout 的输入，请参阅此博客文章系列。

score 0 · Accepted Answer

在与此类似的情况下，通常会使用不同条件概率的比率。

所以在你的情况下，这将是：

P(w|好) / P(w)

然后按那个排名。

估计将只是计数中的最大可能性：

P(w|好) = n(w,好) / n(好)

P(w) = n(w) / N = n(w) / (n(好) + n(坏))

N 是总体语料库标记数，n(*) 是有限制的标记数。

2 回答 2