1

假设我有一个 Array[Double] 的 RDD,有 n 列。我想在最后一列上应用过滤器(例如,值 > 某个常量)。

  • Scala/Apache Spark 中的语法是什么?
  • 如果我有一个向量的 RDD,是否可以做同样的事情?
  • 如果我可以选择其中一个(即 Array[Double] 的 RDD 和 Vectors 的 RDD),我应该选择哪一个才能获得更高效/更快的代码?
4

1 回答 1

2

类似的东西

val rdd: RDD[Array[Double]] = ...
val filtered: RDD[Array[Double]] = rdd.filter(arr => arr.last() > some_value)

我认为选择数组或向量并不重要。Spark 的总体开销远高于阵列与向量的性能/内存优势

于 2014-12-08T04:32:10.687 回答