我想在 scala 中对数据集进行转置?
我的 csv 文件是,
a,b,c,d
e,f,g,h
i,j,k,l
m,n,o,p
我需要结果,
a,e,i,m
b,f,j,n
c,g,k,o
d,h,l,p
我认为可以在 Spark 中使用的一种衬垫。
val a = List(
List('a', 'b', 'c', 'd'),
List('e', 'f', 'g', 'h'),
List('i', 'j', 'k', 'l'),
List('m', 'n', 'o', 'p')
)
val b = sc.parallize(a,1)
b.flatMap(_.zipWithIndex)
.groupBy(_._2)
.mapValues(_.map(_._1))
.collectAsMap()
.toList
.sortBy(_._1)
.map(_._2)
//> List[Iterable[Char]] = List(
// List(a, e, i, m), List(b, f, j, n), List(c, g, k, o), List(d, h, l, p))
用索引压缩每个列表的每个元素,然后按该索引分组。所以我们有地图0 -> <list of (elements, index) at that index>
。将值转换为仅值列表。然后将结果转换为列表(通过带有collectAsMap
,RDD
没有的映射.toList
),因此我们可以按索引对其进行排序。然后按索引对其进行排序并仅提取(使用另一个地图)元素值。
它的使用transpose
方法:
val a = List(
List('a', 'b', 'c', 'd'),
List('e', 'f', 'g', 'h'),
List('i', 'j', 'k', 'l'),
List('m', 'n', 'o', 'p')
)
a.transpose
//List(
// List(a, e, i, m),
// List(b, f, j, n),
// List(c, g, k, o),
// List(d, h, l, p))