我正在使用 spark 2.0 从 parquet 文件中读取数据。
val Df = sqlContext.read.parquet("c:/data/parquet1")
val dfSelect= Df.
select(
"id",
"Currency",
"balance"
)
val dfSumForeachId=dfSelect.groupBy("id").sum("balance")
val total=dfSumForeachId.agg(sum("sum(balance)")).first().getDouble(0)
为了获得总余额值,这是在数据帧上使用操作 first() 获得它的最佳方法吗?
在 spark 2.0 中使用 groupby key 是否可以,它是否具有与 rdd 上的 groupbykey 相同的性能问题,是否需要通过网络对整个数据进行洗牌,然后执行聚合,或者聚合在本地执行,如早期版本的 reducebykey火花
谢谢