我是 Apache Spark(版本 1.4.1)的新手。我编写了一个小代码来读取文本文件并将其数据存储在 Rdd 中。
有没有办法可以获取 rdd 中数据的大小。
这是我的代码:
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.util.SizeEstimator
import org.apache.spark.sql.Row
object RddSize {
def main(args: Array[String]) {
val sc = new SparkContext("local", "data size")
val FILE_LOCATION = "src/main/resources/employees.csv"
val peopleRdd = sc.textFile(FILE_LOCATION)
val newRdd = peopleRdd.filter(str => str.contains(",M,"))
//Here I want to find whats the size remaining data
}
}
我想在过滤器转换(peopleRdd)之前和之后(newRdd)获取数据大小。