carrot2 - Carrot2 分数、标签、短语和相似性？

Question

我不太明白 Carrot2 中标签和短语之间的区别，而且它们似乎没有给出明确的区别我http://doc.carrot2.org/。我尝试将它们都打印出来，但它们显然是相同的（使用kmeansclustering）。有人可以帮我解决这个问题吗？

我也想知道分数。聚类后，我的集群没有附加任何分数，我应该自己计算这些吗？

关于相似度，是否可以使用 Carrot2 来确定查询与集群的相似程度？

score 0 · Accepted Answer

标签、短语和分数的确切含义因算法而异。通常，标签可以由一个或多个短语组成。一些算法总是产生一个短语标签，其他的可能输出由多个短语组成的标签。对于 k-means 聚类，您可以使用labelCount属性设置每个标签的字数。

聚类分数也是特定于算法的，是聚类算法对聚类质量的信念。目前 K-means 的实现确实没有产生任何分数。如果您想计算一种常见的集群质量指标，最简单的方法可能是直接扩展算法的代码，因为它可以让您访问计算质心和距离所需的向量空间模型。

在计算查询和集群之间的相似性时，还有很多可能性。例如，对于 k-means 集群，您可以假设向量空间模型并计算与查询对应的向量与集群质心之间的距离。

1 回答 1