1

我制作了 RDD[Row] data(myData) 并尝试将其保存为文件

myData.saveAsFile("path")

output
(a, 100, testcontenct)
(b, 200, stackoverflow)

它运作良好,但由于它将被视为 csv,我需要取出 '(' 和 ')' 符号。我的最终目标输出是

a, 100, testcontenct
b, 200, stackoverflow

如何制作没有这些符号的输出文件。

4

1 回答 1

2

您可以使用 databricks csv 库:https ://github.com/databricks/spark-csv

我认为它只适用于数据帧,但您可以轻松地将您的 RDD 转换为数据帧

import sqlContext.implicits._
val myDf = myData.toDF

然后将其写入文件

myDf.write
    .format("com.databricks.spark.csv")
    .save("path")
于 2016-03-10T11:26:56.770 回答