arrays - 对向量/数组的 RDD 应用过滤器[Double]

翻译自：https://stackoverflow.com/questions/27350581 2014-12-08T02:39:18.520

490 次

1

假设我有一个 Array[Double] 的 RDD，有 n 列。我想在最后一列上应用过滤器（例如，值 > 某个常量）。

Scala/Apache Spark 中的语法是什么？
如果我有一个向量的 RDD，是否可以做同样的事情？
如果我可以选择其中一个（即 Array[Double] 的 RDD 和 Vectors 的 RDD），我应该选择哪一个才能获得更高效/更快的代码？

1 回答 1

2

类似的东西

val rdd: RDD[Array[Double]] = ...
val filtered: RDD[Array[Double]] = rdd.filter(arr => arr.last() > some_value)

我认为选择数组或向量并不重要。Spark 的总体开销远高于阵列与向量的性能/内存优势

于 2014-12-08T04:32:10.687 回答