scala - 使用 Scala api 到 Spark 的数据帧到 EdgeRDD (GraphX)

Question

在 Scala 代码中，有没有一种从 SparkDataFrame到没有硬编码类型的好方法？EdgeRDD我见过的用例类定义EdgeRDD.

假设我们的 SparkDataFrame有0 到 22 个额外的StructField ("dstID", LongType, false)and和（我们对此进行了限制，以便我们可以使用 TupleN 来表示它们）。有没有一种干净的方法可以通过从中获取类型来定义？作为动机，考虑我们正在加载一个包含类型信息的 Parquet 文件。("srcID", LongType, false)StructFieldEdgeRdd[TupleN]DataFrame

我对 Spark 和 Scala 很陌生，所以我意识到这个问题可能被误导了。在这种情况下，我很感激学习思考这个问题的“正确”方式。

score 0 · Accepted Answer

完成此操作的最简单方法可能是映射 Dataframe 中的 Row 对象（使用map）并以这种方式返回。

scala - 使用 Scala api 到 Spark 的数据帧到 EdgeRDD (GraphX)

1 回答 1

Related

Reference