我正在使用java中的Spark。我有一个名为Out1的JavaPairRDD
输出1:
IDCLIENT|INFO|
1|A|
1|C|
1|H|
5|R|
2|B|
我想创建一个名为Out2的新JavaPairRDD ,它与Out1相同,但没有第一行:
输出2:
IDCLIENT2|INFO|
1|C|
1|H|
5|R|
2|B|
之后,我想像这样组合这两个JavaPairRDD:
输出3:
IDCLIENT|INFO|IDCLIENT2|
1|A,C|1|
1|C,H|1|
1|H,R|5|
5|R,B|2|
2|B| |
注意:我们不能使用groupByKey
,因为我们可以在多行中拥有相同的键。