我尝试使用 flink-ml svm 实现进行一些二进制分类。当我评估分类时,我在训练数据集上得到了约 85% 的错误率。我绘制了 3D 数据,看起来你可以用超平面很好地分离数据。
当我试图从 svm 中获取权重向量时,我只看到了在不拦截超平面的情况下获取权重向量的选项。所以只是一个通过 (0,0,0) 的超平面。
我不知道错误可能出在哪里,并感谢每一个线索。
val env = ExecutionEnvironment.getExecutionEnvironment
val input: DataSet[(Int, Int, Boolean, Double, Double, Double)] = env.readCsvFile(filepathTraining, ignoreFirstLine = true, fieldDelimiter = ";")
val inputLV = input.map(
t => { LabeledVector({if(t._3) 1.0 else -1.0}, DenseVector(Array(t._4, t._5, t._6)))}
)
val trainTestDataSet = Splitter.trainTestSplit(inputLV, 0.8, precise = true, seed = 100)
val trainLV = trainTestDataSet.training
val testLV = trainTestDataSet.testing
val svm = SVM()
svm.fit(trainLV)
val testVD = testLV.map(lv => (lv.vector, lv.label))
val evalSet = svm.evaluate(testVD)
// groups the data in false negatives, false positives, true negatives, true positives
evalSet.map(t => (t._1, t._2, 1)).groupBy(0,1).reduce((x1,x2) => (x1._1, x1._2, x1._3 + x2._3)).print()
绘制的数据如下所示: