apache-spark - 如何在 Spark DataFrame/DataSet 中将行拆分为不同的列？

Question

假设我有如下数据集：

Name | Subject | Y1  | Y2 
A    | math    | 1998| 2000
B    |         | 1996| 1999
     | science | 2004| 2005

我想拆分此数据集的行，以便消除 Y2 列，例如：

Name | Subject | Y1
A    | math    | 1998
A    | math    | 1999
A    | math    | 2000
B    |         | 1996
B    |         | 1997
B    |         | 1998
B    |         | 1999
     | science | 2004
     | science | 2005

有人可以在这里提出一些建议吗？我希望我已经把我的问题说清楚了。提前致谢。

score 4 · Accepted Answer

我认为你只需要创建一个udf来创建范围。然后您可以使用explode 创建必要的行：

val createRange = udf { (yearFrom: Int, yearTo: Int) =>
    (yearFrom to yearTo).toList
}

df.select($"Name", $"Subject", functions.explode(createRange($"Y1", $"Y2"))).show()

编辑：此代码的 python 版本将类似于：

from pyspark.sql import Row
from pyspark.sql.functions import udf, explode
from pyspark.sql.types import IntegerType

createRange=udf( lambda (yearFrom, yearTo): list(range(yearFrom, yearTo)), IntegerType())

df.select($"Name", $"Subject", explode(createRange($"Y1", $"Y2"))).show()

score 1 · Accepted Answer

我已经在 pyspark 中测试了这段代码，它按预期工作：

data= sc.parallelize([["A","math",1998,2000],["B","",1996,1999],["","science",2004,2005]]

data.map(lambda reg: ((reg[0],reg[1]),(range(reg[2],reg[3]+1))) )
    .flatMapValues(lambda reg: reg).collect()

更详细地说，您需要将输入数据转换为 (key,value) 形式的一对 RDD，其中 key 由前两个字段组成，因为结果将被展平，保持 key 不变flatMapValues。要映射的值构造为rangefrom Y1to Y2。所有这一切都是在第一次完成的map。

flatMapValues将range关联的每个值返回到它的key.

输出如下所示：

[(('A', 'math'), 1998),
 (('A', 'math'), 1999),
 (('A', 'math'), 2000),
 (('B', ''), 1996),
 (('B', ''), 1997),
 (('B', ''), 1998),
 (('B', ''), 1999),
 (('', 'science'), 2004),
 (('', 'science'), 2005)]

score 0 · Accepted Answer

这是您可以实现此功能的方式：

  val resultantDF= df.rdd.flatMap{row =>
    val rangeInitial = row.getInt(2)
    val rangeEnd = row.getInt(3)
    val array = rangeInitial to rangeEnd
    (List.fill(array.size)(row.getString(0)),List.fill(array.size)(row.getString(1)),array).zipped.toList
    }.toDF("Name","Subject","Y1")

resultantDF.show()

score -1 · Accepted Answer

您可以轻松地使用 spark select 在数据框甚至 RDD 中获取您想要的内容。

Dataset<Row> sqlDF = spark.sql("SELECT Name,Subject,Y1 FROM tableName");

如果你是从已经存在的数据框开始的，比如用户，你可以使用这样的东西：

resultDF = usersDF.select("Name","Subject","Y1");

apache-spark - 如何在 Spark DataFrame/DataSet 中将行拆分为不同的列？

4 回答 4

Related

Reference