我们如何使用 Weka 计算集群的准确性?
我可以使用这个公式:
Accuracy (A) = (tp+tn)/Total # samples
但是如何知道 Weka 工具中的实验输出中的真阳性、假阳性、真阴性和假阴性是什么?
我们如何使用 Weka 计算集群的准确性?
我可以使用这个公式:
Accuracy (A) = (tp+tn)/Total # samples
但是如何知道 Weka 工具中的实验输出中的真阳性、假阳性、真阴性和假阴性是什么?
Weka 中有几种不同的聚类模式:
使用训练集(默认):聚类后,Weka 将训练实例分类到它开发的集群中,并计算每个集群中实例的百分比。例如,集群 0 中的 X% 和集群 1 中的 Y% 等。
提供的测试集:如果集群表示像 EM 算法一样是概率的,那么 Weka 可以在单独的测试数据上评估集群。
使用类进行聚类评估:在这种模式下,Weka 首先忽略类属性并生成聚类。在测试期间,它根据每个集群内类属性的多数值为集群分配类标签。最后,它计算分类误差并显示相应的混淆矩阵。
看看交叉验证原则。在您的 java 代码中使用ClusterEvaluation的方法 crossValidateModel 和 evaluateClusterer。或者您也可以直接使用 weka GUI 进行实验。
基于这个对类似问题的回答classificationViaClustering
,可以通过包管理器下载的元分类器将做你想做的事。