scala - 在 Flink 中触发执行模型 LinearRegression -> 比 Spark 慢？

翻译自：https://stackoverflow.com/questions/44353875 2017-06-04T12:04:19.637

91 次

我在 Spark 和 Flink 中开发了一个多元线性回归和 Kmeans 来批量比较它们的性能（我使用 Zeppelin 进行编程和执行，并使用 Ganglia 进行测量）。

我在这篇文章的答案中读到我必须触发方法火车的执行，所以我做到了。

然而，在线性回归中，Flink 需要 3 分 27 秒（仅在触发部分），而 Spark 只需大约 30 秒（在整个执行过程中）......所以我认为我做错了，因为这是不可能的。

与 K-means 算法相比，Flinks 也较慢。

这是我的代码：

//Read the data
val data: DataSet[org.apache.flink.ml.common.LabeledVector] = MLUtils.readLibSVM(benv, /.../quake_test_I.libsvm")

//Example of data
6.1 1:33.0 2:53.26 3:-161.74
5.8 1:45.0 2:51.34 3:173.44
5.9 1:17.0 2:28.62 3:142.42
5.8 1:28.0 2:52.73 3:171.99

// Create multiple linear regression learner
val mlr = MultipleLinearRegression()
.setIterations(10)
.setStepsize(0.5)
.setConvergenceThreshold(0.001)

//Train the model
val model = mlr.fit(data)

//Tigger its execution
val weights = mlr.weightsOption match {
  case Some(weights) => weights.collect()
  case None => throw new Exception("Could not calculate the weights.")

我应该如何触发这个模型的执行？

谢谢你的帮助！:)

scala - 在 Flink 中触发执行模型 LinearRegression -> 比 Spark 慢？

0 回答 0

Related

Reference