问题标签 [flinkml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
340 浏览

scala - Flink 多元线性回归:有 Predict 吗?

我已经训练了一个多元回归模型,现在我想用它来预测。

阅读文档我知道输入是一个带标签的向量,输出是一个带有元组 [ InputValue, PredictValue ] 的数据集,对吧?

我创建了我的标签向量:

通过创建和训练我的模型,我预测:

我得到了这个错误

但是你可以在这里看到官方文档说它退出了。

谢谢你的帮助!:)

0 投票
1 回答
252 浏览

scala - Flink:错误解析数值格式

我正在尝试使用 Zeppelin 在 Flink (Scala) 中开发 K-means 模型。这是我的简单代码的一部分:

当我打印数据或使用预测方法时,我得到了这个错误

我不知道是我加载数据的错还是与类似的事情有关

谢谢你的帮助!:)

0 投票
0 回答
91 浏览

scala - 在 Flink 中触发执行模型 LinearRegression -> 比 Spark 慢?

我在 Spark 和 Flink 中开发了一个多元线性回归和 Kmeans 来批量比较它们的性能(我使用 Zeppelin 进行编程和执行,并使用 Ganglia 进行测量)。

我在这篇文章的答案中读到我必须触发方法火车的执行,所以我做到了。

然而,在线性回归中,Flink 需要 3 分 27 秒(仅在触发部分),而 Spark 只需大约 30 秒(在整个执行过程中)......所以我认为我做错了,因为这是不可能的。

与 K-means 算法相比,Flinks 也较慢。

这是我的代码:

我应该如何触发这个模型的执行?

谢谢你的帮助!:)

0 投票
1 回答
721 浏览

java - 使用 Flink 窗口和折叠功能,缺少元素?

当我尝试使用 window 和 fold 函数聚合元素时,一些元素会因为聚合而丢失。使用来自 Kafka 的元素(value:0, value:1, value:2, value:3)并将它们聚合为奇数和偶数值。

输出是:

缺少 10-13 之间的数字,这发生在一组随机数字上。有人可以建议下面的代码中遗漏了什么吗?我怎样才能确保处理所有元素?

0 投票
1 回答
362 浏览

scala - Flink SVM 90% 错误分类

我尝试使用 flink-ml svm 实现进行一些二进制分类。当我评估分类时,我在训练数据集上得到了约 85% 的错误率。我绘制了 3D 数据,看起来你可以用超平面很好地分离数据。

当我试图从 svm 中获取权重向量时,我只看到了在不拦截超平面的情况下获取权重向量的选项。所以只是一个通过 (0,0,0) 的超平面。

我不知道错误可能出在哪里,并感谢每一个线索。

绘制的数据如下所示:

数据图

0 投票
1 回答
282 浏览

machine-learning - Apache Flink 对数据流的随机异常值选择

我正在尝试使用 Apache Flink ML 包的 StochasticOutlierSelection 模型。

我无法弄清楚如何将它与 Kafka 作为数据源一起使用,我知道它需要一个 DataSet 而不是 DataStream,但我似乎无法将我的 Kafka DataStream 窗口化为一个 DataSet。

有没有办法可以将我的流视为一系列小型数据集。例如,有没有办法说流中匹配模式的每 10 个元素(按元素唯一 ID 滑动窗口)将它们视为固定大小的 DataSet 并检测此固定大小数据集中的任何异常值?

我要创建的场景是:

数据源 -> Kafka 主题 1 -> Flink 预处理 -> Kafka 主题 2 -> Flink Groups By ID -> 组上的异常值检测

我已经有一个可以进行预处理的工作实现,并且希望 Flink 能够满足我的要求?

0 投票
1 回答
275 浏览

scala - Apache Flink 中的流式预测

是否可以使用已经批量训练的模型对 Apache Flink 中的数据流进行预测?

来自 svm 的 predict 函数需要一个数据集作为输入,并且不需要数据流。

不幸的是,我无法弄清楚如何使它与 flatpMap/map 函数一起使用。

我以这种方式训练了我的 SVM 模型:

val svm2 = SVM()
svm2.setSeed(1)
svm2.fit(trainLV)
val testVD = testLV.map(lv => (lv.vector, lv.label))
val evalSet = svm2.evaluate(testVD)

并保存模型: val modelSvm = svm2.weightsOption.get

然后我在流环境中有一个传入的数据流:
dataStream[(Int, Int, Int)]
应该使用 svm 模型进行二进制分类。

谢谢!

0 投票
0 回答
280 浏览

scala - Flink ML - java.lang.ClassNotFoundException:org.apache.flink.ml.math.DenseVector

向我的 Flink 1.8.1 集群提交作业时,它失败并出现以下异常:

但是,根据以下内容,提到的课程似乎在我的罐子里:

如图所示:

我的 Flink 依赖项如下所示:

,使用 Flink 版本 1.8.1 和 Scala 2.12.8。我使用创建我的 jarsbt assembly

有什么提示吗?

编辑:与 Scala 2.11.11 的结果相同 - 完整的堆栈跟踪:

0 投票
1 回答
188 浏览

dataset - Apache Flink - 流数据的 svm 预测

我正在使用 Apache Flink 来预测来自 Twitter 的流。

代码在 Scala 中实现

我的问题是,我从 DataSet API 训练的 SVM 模型需要一个 DataSet 作为 predict() 方法的输入。

我已经在这里看到了一个问题,用户说,您需要编写一个自己的 MapFunction 来在工作开始时读取模型(参考:使用 scala 在 Flink 中进行实时流预测

但我无法编写/理解这段代码。

即使我在 StreamingMapFunction 中得到模型。我仍然需要一个 DataSet 作为参数来预测结果。

我真的希望有人可以向我展示/解释这是如何完成的。

Flink 版本:1.9 Scala 版本:2.11 Flink-ML:2.11

0 投票
1 回答
74 浏览

scala - Apache Flink - 预测处理

我目前正在使用 Apache Flink 的 SVM-Class 来预测一些文本数据。

该类提供了一个预测函数,它将 DataSet[Vector] 作为输入并给我一个 DataSet[Prediction] 作为结果。到目前为止,一切都很好。

我的问题是,我没有预测属于哪个文本的上下文,并且我无法在 predict() 函数中插入文本以便之后拥有它。

代码:

有没有办法将其他数据保留在预测旁边以将所有内容放在一起?因为没有上下文,预测对我没有帮助。

或者也许有一种方法可以只预测一个向量而不是数据集,我可以在上面的 map 函数中调用该函数。